“十 一 五 ”国家 级 规划 教材 


高 等 教育 


普通 


(& 


重点 大 学 计算 机 专业 系列 教材 


路 
其 
照 
ET 
中 
世 
全 
由 
ET 


妊 
州 
并 
十 
此 


编著 


俏 。 肢 耿 青 


忌 
宕 
项 
HH 
其 
挫 


清华 大 学 出 版 社 


重点 大 学 计算 机 专业 系列 教材 


数据 仓库 与 数据 挖掘 


陈 志 泊 主编 
韩 慧 王建 新 孙 俏 里 耿 青 编著 


清华 大 学 出 版 社 
北京 


内 容 简 介 


本 书 主要 介绍 数据 仓库 和 数据 挖掘 技术 的 基本 原理 和 应 用 方法 ,全 书 共 分 为 12 章 ,主要 内 容 包 括 数 
据 仓 库 的 概念 和 体系 结构 .数据 仓库 的 数据 存储 和 处 理 、 数 据 仓 库 系 统 的 设计 与 开发 .关联 规则 、 数 据 分 
类 ,数据 聚 类 、 贝 叶 斯 网 络 .粗糙 集 .神经 网 络 .遗传 算法 ,统计 分 析 、 文 本 和 Web 挖掘 。 

本 书 既 重视 理论 知识 的 讲解 ,又 强调 应 用 技能 的 培养 。 每 章 首 先 介绍 算法 的 主要 思想 和 理论 基础 ,之 
后 利用 算法 去 解决 实例 中 给 出 的 任务 ,而且 对 于 数据 仓库 的 组 建 方法 和 多 数 章节 中 的 数据 挖掘 算法 ,本 书 
都 使 用 Microsoft SQL Server 2005 进行 了 操作 实现 。 本 书 通过 对 具体 实例 的 学 习 和 实践 ,使 读者 掌握 数 
据 仓库 和 数据 挖掘 中 必要 的 知识 点 ,达到 学 以 致 用 的 目的 。 

本 书 每 章 均 配 有 习题 ,习题 形式 为 选择 题 . 简 答 题 和 操作 题 ,可 以 帮助 读者 进一步 巩固 和 掌握 所 学 知 
识 。 此 外 ,本 书 提供 多 媒体 教学 课件 和 习题 参考 答案 ,读者 可 到 清华 大 学 出 版 社 网 站 (http://www. tup 
.com. cn/) 下 载 。 

本 书 可 以 作为 高 等 学 校 计算 机 及 相关 专业 本 科 研究生 的 数据 仓库 和 数据 挖掘 教材 ,也 可 供 相关 领 域 
的 广大 科技 工作 人 员 和 高 校 师 生 参考 。 
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INTRODUCTION 


出 版 说 明 


随 着 国家 信息 化 步伐 的 加 快 和 高 等 教育 规模 的 扩大 ,社会 对 计算 机 专业 
人 才 的 需求 不 仅 体现 在 数量 的 增加 上 ,而 且 体现 在 质量 要 求 的 提高 上 ,培养 
具有 研究 和 实践 能 力 的 高 层次 的 计算 机 专业 人 才 已 成 为 许多 重点 大 学 计算 
机 专业 教育 的 主要 目标 。 目 前 ,我 国共 有 16 个 国家 重点 学 科 .20 个 博士 点 一 
级 学 科 、28 个 博士 点 二 级 学 科 集 中 在 教育 部 部 属 重点 大 学 ,这 些 高 校 在 计算 
机 教学 和 科研 方面 具有 一 定 优势 ,并 且 大 多 以 国际 著名 大 学 计算 机 教育 为 参 
照 系 ,具有 系统 完善 的 教学 课程 体系 、 教 学 实验 体系 、 教 学 质量 保证 体系 和 人 
才 培 养 评估 体系 等 综合 体系 ,形成 了 培养 一 流 人 才 的 教学 和 科研 环境 。 
重点 大 学 计算 机 学 科 的 教学 与 科研 氛围 是 培养 一 流 计 算 机 人 才 的 基 
础 ,其 中 专业 教材 的 使 用 和 建设 则 是 这 种 氛围 的 重要 组 成 部 分 ,一 批 具 有 
学 科 方 向 特色 优势 的 计算 机 专业 教材 作为 各 重点 大 学 的 重点 建设 项 目 成 
果 得 到 肯定 。 为 了 展示 和 发 扬 各 重点 大 学 在 计算 机 专业 教育 上 的 优势 , 特 
别 是 专业 教材 建设 上 的 优势 ,同时 配合 各 重点 大 学 的 计算 机 学 科 建 设 和 专 
业 课 程 教学 需要 ,在 教育 部 相关 教学 指导 委员 会 专家 的 建议 和 各 重点 大 学 
的 大 力 支 持 下 ,清华 大 学 出 版 社 规划 并 出 版 本 系列 教材 。 本 系列 教材 的 建 
设 虽 在 “汇聚 学 科 精 英 、 引 领 学 科 建设 .培育 专业 英才 ”, 同 时 以 教材 示范 各 
重点 大 学 的 优秀 教学 理念 .教学 方法 .教学 手段 和 教学 内 容 等 。 

本 系列 教材 在 规划 过 程 中 体现 了 如 下 一 些 基 本 组 织 原则 和 特点 。 

1. 面 向 学 科 发 展 的 前 沿 , 适 应 当前 社会 对 计算 机 专业 高 ma 
求 。 教 材 内 容 以 基本 理论 为 基础 ,反映 基本 理论 和 原理 的 综合 应 用 ,重视 实 
践 和 应 用 环节 

2. 反映 教学 需要 ,促进 教学 发 展 。 教 材 要 能 适应 多 样 化 的 教学 需要 , 正 
确 把 握 教学 内 容 和 课程 体系 的 改革 方向 。 在 选择 教材 内 容 和 编写 体系 时 注 
意 体现 素质 教育 、 创 新 能 力 与 实践 能 力 的 培养 ,为 学 生 知识 .能 力 、. 素 质 协 调 
发 展 创造 条 件 。 

3. 实施 精品 战略 ,突出 重点 ,保证 质量 。 规 划 教 材 建设 的 重点 依然 是 专 
业 基 础 课 和 专业 主干 课 ; 特别 注意 选择 并 安排 了 一 部 分 原来 基础 比较 好 的 优 
秀 教 材 或 讲义 修订 再 版 ,逐步 形成 精品 教材 ; 提倡 并 鼓励 编写 体现 重点 大 学 
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计算 机 专业 教学 内 容 和 课程 体系 改革 成 果 的 教材 。 


4 3 


E 张 一 纲 多 本 ,合理 配套 。 专 业 基础 课 和 专业 主干 课 教 材 要 配套 ,同一 门 课程 可 以 有 


多 本 具有 不 同 内 容 特点 的 教材 。 处 理 好 教材 统一 性 与 多 样 化 的 关系 ; 基本 教材 与 辅助 教材 


以 及 教学 参考 


的 关系 ; 文字 教材 与 软件 教材 的 关系 ,实现 教材 系列 资源 配套 。 


5. 依靠 专家 ,择优 落实 。 在 制订 教材 规划 时 要 依靠 各 课程 专家 在 调查 研究 本 课程 教材 


建设 现状 的 基础 上 提出 规划 选 题 。 在 落实 3 
后 要 认真 实行 审 稿 程序 ,确保 出 书 质量 。 


定 主编 。 


书稿 完成 


E 编 人 选 时 ,要 引入 竞争 机 制 ,通过 申报 、 评 审 确 


繁荣 教材 出 版 事业 ,提高 教材 质量 的 关键 是 教师 。 建 立 一 支 高 水 平 的 以 老 带 新 的 教材 
编写 队伍 才能 保证 教材 的 编写 质量 ,希望 有 志 于 教材 建设 的 教师 能 够 加 入 到 我 们 的 编写 队 


伍 中 来 。 
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FOREWORD 


前 言 


随 着 计算 机 和 信息 时 代 的 迅猛 发 展 , 人 类 收集 、 存 储 和 访问 数据 的 能 力 
大 大 增强 ,快速 增长 的 海量 数据 集 已 经 远 远 超出 了 人 类 的 理解 能 力 ,传统 的 
数据 分 析 工 具 也 显得 力不从心 。 如 何不 被 这 些 海量 数据 淹没 ,而 是 有 效 地 组 
织 这 些 数据 ,并 且 从 中 找 出 有 价值 的 知识 ,从 而 帮助 人 类 制定 正确 的 决策 ? 
针对 这 一 问题 ,数据 仓库 和 数据 挖掘 技术 应 运 而 生 , 并 且 显 示 出 强大 的 生命 
力 。 要 将 海量 数据 转换 成 为 有 用 的 信息 和 知识 ,首先 要 有 效 地 收集 和 组 织 
据 。 数 据 仓库 是 良好 的 数据 收集 和 组 织 工具 , 它 的 任务 是 搜集 来 自 各 个 业务 
系统 的 有 用 数据 ,存放 在 一 个 集成 的 储存 区 内 。 在 数据 仓库 的 丰富 完整 的 数 
据 基 础 上 ,数据 挖掘 技术 可 以 从 中 挖掘 出 有 价值 的 知识 ,从 而 帮助 决策 者 做 
出 正确 决策 。 

本 书 主要 介绍 数据 仓库 和 数据 挖掘 技术 的 基本 原理 和 应 用 方法 ,全 书 共 
分 为 12 章 ,主要 内 容 包 括 数据 仓库 的 概念 和 体系 结构 .数据 仓库 的 数据 存储 
和 处 理 .数据 仓库 系统 的 设计 与 开发 .关联 规则 、 数 据 分 类 、 数 据 聚 类 、 贝 叶 斯 
网 络 ,粗糙 集 、 神 经 网 络 .遗传 算法 、 统 计 分 析 、 文 本 和 Web 挖掘 。 其 中 ,前 3 章 
主要 介绍 数据 仓库 的 基本 原理 和 数据 仓库 系统 的 组 建 方法 ,后 面 的 章节 介绍 
当前 流行 的 数据 挖掘 算法 的 主要 思想 和 理论 基础 ,并 且 给 出 丰富 的 应 
实例 。 

本 书 紧 跟 数 据 仓 库 和 数据 挖掘 技术 的 发 展 和 人 才 培 养 的 目标 ,有 以 下 几 
个 特点 : 

(1) 可 读 性 强 ,文字 叙述 深入 浅 出 , 易 读 易 用 ,即使 是 初学 者 ,阅读 起 来 也 
比较 容易 。 

(2) 概念 清晰 ,条 理 清楚 ,内 容 取 舍 合理 。 

(3) 本 书 强调 基础 ,重视 实例 。 各 章节 都 以 经 典 算法 为 主 ,介绍 其 主要 思 
想 和 基本 原理 ,并 且 给 出 恰当 和 丰富 的 实例 。 

(4) 书 中 实例 和 课 后 习题 实用 、 丰 富 , 通 过 练习 ,读者 可 以 对 各 个 知识 点 
从 不 同 角度 得 到 训练 ,巩固 和 掌握 所 学 知识 。 

(5) 教学 资源 丰富 ,本 书 提供 多 媒体 教学 课件 和 习题 参考 答案 ,方便 教 
学 。 对 于 上 述 资 源 ,读者 可 到 清华 大 学 出 版 社 的 网 站 http:/ww.tup.com.on/ 下 载 。 
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(6) 对 于 数据 仓库 的 组 建 方法 和 多 数 章节 中 的 数据 挖掘 算法 ,本 书 都 使 用 Microsoft SQL 
Server 2005 进行 了 操作 实现 ,这 种 做 法 与 市 场 主流 开发 工具 和 技术 同步 ,有 利于 读者 走向 
社会 。 

本 书 各 章节 之 间 衔 接 自然 ,同时 各 章节 又 有 一 定 的 独立 性 ,读者 可 按 教材 的 自然 顺序 学 
习 , 也 可 以 根据 实际 情况 挑选 需要 的 章节 学 习 。 

本 书 可 以 作为 高 等 学 校 计算 机 及 相关 专业 本 科 、 研 究 生 学 习 数 据 仓 库 和 数据 挖掘 的 教 
材 ,也 可 供 相关 领域 的 广大 科技 工作 人 员 和 高 校 师 生 参考 。 

本 书 由 陈 志 泊 担任 主编 ,第 1 一 第 3 章 由 聂 耿 青 编写 ,第 5. 第 6 和 第 11 章 由 韩 慧 编写 ， 
第 4 和 第 10 章 由 孙 俏 编写 ,第 /一 第 9 和 第 12 章 由 王建 新 编写 。 

由 于 时 间 仓 促 , 加 之 编者 水 平 有 限 , 书 中 不 足 之 处 敬 请 批评 指正 


o 


编 者 
2009 年 2 月 
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数据 仓库 的 概念 与 体系 结构 ”第 1 章 


随 着 企 事 业 单 位 信息 化 建设 的 逐步 完善 ,各 单位 信息 系统 将 产生 越 来 越 
多 的 历史 数据 信息 。 如 何 处 理 这 些 历史 数据 呢 ? 现 各 单位 至 少 有 如 下 三 种 
做 法 。 

(1) 将 已 经 失效 的 历史 数据 简单 地 删除 ,以 便 减 少 磁盘 的 占用 空间 并 提 
高 系统 性 能 。 这 种 方法 最 简单 。 

(2) 先 对 历史 数据 作 介质 备份 ,然后 删除 ,以 防 万 一 需要 查看 。 

(3) 建立 一 个 数据 仓库 系统 ,将 各 业务 系统 及 其 他 档案 数据 中 有 分 析 价 
值 的 数据 及 需要 存档 的 数据 保存 到 数据 仓库 中 ,进而 可 以 综合 利用 这 些 数 
据 , 建 立 分 析 模 型 ,从 中 挖掘 出 符合 规律 的 知识 并 用 于 未 来 的 预测 与 决策 中 。 

一 方面 ,各 信息 化 单位 正 逐 步 认 识 到 这 些 历史 业务 数据 就 是 金 矿石 ,可 
以 从 中 炼 出 金子 来 ,因此 越 来 越 多 的 单位 开始 建立 自己 的 数据 仓库 与 数据 挖 
掘 系统 ,以 从 中 掏 出 “金子 "来 。 事 实 上 ,业务 数据 的 积累 年 限 越 长 , 越 容 易 发 
现 规 律 ,形成 知识 。 

另 一 方面 ,基于 Web 的 商务 应 用 越 来 越 普及 ,客户 和 供应 商 在 商务 网 
站 上 的 活动 提供 了 大 量 的 点 击 流 数据 ,通过 分 析 可 以 进一步 了 解 访问 者 的 
行为 偏好 ,发 现 带 普遍 性 的 消费 行为 规律 。 同 时 ,通过 网 站 日 志 还 可 进 一 
步 获得 访问 者 的 活动 细节 ,如 时 间 、IP 地 址 经常 访问 的 页 面 和 内 容 、 在 网 
页 上 的 停留 时 间 等 。 如 果 将 这 些 数据 连同 客户 的 交易 、 付 款 、 产 品 利润 、 查 
询 等 历史 记录 都 从 各 业务 系统 中 合并 到 数据 仓库 中 ,将 可 以 进一步 改进 网 
站 页 面 内 容 和 风格 ,让 客户 和 业务 伙伴 更 加 满意 ,甚至 带 来 利润 更 高 的 相 
关 业 务 。 


1.1 数据 仓库 的 概念 .特点 与 组 成 


数据 仓库 (data warehouse) 通 常 指 一 个 数据 库 环境 ,而 不 是 指 一 件 产品 ， 
它 提 供用 户 用 于 决策 支持 的 当前 和 历史 数据 ,这 些 数据 在 传统 的 数据 库 中 通 
常 不 方便 得 到 。 
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简单 地 说 ,数据 仓库 就 是 一 个 面向 主题 (subject oriented) 的、 集成 (integrate) 的 .相对 
稳定 (non-volatile) 的 、 反 映 历史 变化 (time variant) 的 数据 集合 ,通常 用 于 辅助 决策 支持 。 


1.1.1 数据 仓库 的 特点 


1. 面向 主题 


操作 型 数据 库 中 的 数据 针对 事务 处 理 任务 ,各 个 业务 系统 之 间 各 自分 离 ; 而 数据 仓库 
中 的 数据 是 按照 一 定 的 主题 域 进 行 组 织 的 。 主 题 是 一 个 抽象 的 概念 ,是 指 用 户 使 用 数据 仓 
库 进行 决策 时 所 关心 的 重点 领域 ,例如 顾客 .供应 商 和 产品 等 。 一 个 主题 通常 与 多 个 操作 型 
数据 库 相 关 。 


2. 集成 


操作 型 数据 库 通常 与 某 些 特定 的 应 用 相关 ,数据 库 之 间 相 互 独 立 , 并 且 往 往 是 异 构 的 ; 
而 数据 仓库 中 的 数据 是 在 对 原 有 分 散 的 数据 库 数据 作 抽 取 、 清 理 的 基础 上 经 过 系统 加 工 、 汇 
总 和 整理 得 到 的 。 所 以 ,必须 消除 源 数据 中 的 不 一 致 性 ,以 保证 数据 仓库 内 的 信息 是 关于 整 
个 企 事业 单位 一 致 的 全 局 信息 。 也 就 是 说 ,存放 在 数据 仓库 中 的 数据 应 使 用 一 致 的 命名 规 
则 格式、 编码 结构 和 相关 特性 来 定义 。 


3. 相对 稳定 


操作 型 数据 库 中 的 数据 通常 实时 更 新 ,数据 根据 需要 及 时 发 生变 化 。 数 据 仓 库 的 数据 
主要 用 于 决策 分 析 , 其 所 涉及 的 数据 操作 主要 是 数据 查询 和 定期 更 新 ,一 旦 某 个 数据 加 载 到 
数据 仓库 以 后 ,一 般 情 况 下 将 作为 数据 档案 长 期 保存 ,几乎 不 再 做 修改 和 删除 操作 。 也 就 是 
说 ,针对 数据 仓库 ,通常 有 大 量 的 查询 操作 及 少量 定期 的 更 新 操作 。 


4. 反映 历史 变化 


操作 型 数据 库 主要 关心 当前 某 一 个 时 间 段 内 的 数据 ,而 数据 仓库 中 的 数据 通常 包含 较 
久远 的 历史 数据 ,因此 总 是 包括 一 个 时 间 维 ,以 便 可 以 研究 趋势 和 变化 。 数 据 仓库 系统 通常 
记录 了 一 个 单位 从 过 去 某 一 时 期 到 目前 的 所 有 时 期 的 信息 ,通过 这 些 信息 ,可 以 对 单位 的 发 
展 历程 和 未 来 趋势 做 出 定量 分 析 和 预测 。 


1.1.2 数据 仓库 的 组 成 
1. 数据 仓库 数据 库 


数据 仓库 数据 库 是 整个 数据 仓库 环境 的 核心 ,是 数据 信息 存放 的 地 方 , 对 数据 提供 存 取 和 
检索 支持 。 相 对 于 传统 数据 库 来 说 ,其 突出 的 特点 是 对 海量 数据 的 支持 和 快速 的 检索 技术 。 


2. 数据 抽取 工具 


数据 抽取 工具 是 把 数据 从 各 种 各 样 的 存储 环境 中 提取 出 来 ,进行 必要 的 转化 .整理 ,再 
存放 到 数据 仓库 内 。 对 各 种 不 同 数据 存储 方式 的 访问 能 力 是 数据 抽取 工具 的 关键 ,可 以 运 


3 
第 1 章 a 


用 高 级 语言 编写 的 程序 操作 系统 脚本 、 批 命令 脚本 或 SQL 脚本 等 方式 访问 不 同 的 数据 环 
境 。 数 据 转换 通常 包括 如 下 内 容 。 

(1) 删除 对 决策 分 析 没 有 意义 的 数据 。 

(2) 转换 到 统一 的 数据 名 称 和 定义 。 

(3) 计算 统计 和 衍生 数据 。 

(4) 填补 缺失 数据 。 

(5) 统一 不 同 的 数据 定义 方式 。 


3. 元 数据 


元 数据 是 描述 数据 仓库 内 数据 的 结构 和 建立 方法 的 数据 。 元 数据 为 访问 数据 仓库 提供 
了 一 个 信息 目录 ,这 个 目录 全 面 描 述 了 数据 仓库 中 有 什么 数据 、 这 些 数据 是 怎么 得 到 的 、 怎 
么 访问 这 些 数 据 。 元 数据 是 数据 仓库 运行 和 维护 的 中 心 内 容 , 数 据 仓库 系统 对 数据 的 存 取 
和 更 新 都 需要 元 数据 信息 。 根 据 元 数据 用 途 的 不 同 可 将 元 数据 分 为 技术 元 数据 和 业务 元 数 
据 两 类 。 

(1) 技术 元 数据 是 数据 仓库 的 设计 和 管理 人 员 用 于 开发 和 管理 数据 仓库 时 使 用 的 元 数 
据 , 包 括 数据 源 信息 ; 数据 转换 的 描述 ; 数据 仓库 内 对 象 和 数据 结构 的 定义 ; 数据 清理 和 数 
据 更 新 时 用 的 规则 ; 源 数 据 到 目的 数据 的 映射 表 ; 用 户 访问 权限 、 数 据 备 份 历史 记录 ,数据 
导入 历史 记录 和 信息 发 布 历史 记录 等 。 

(2) 业务 元 数据 从 单位 业务 的 角度 描述 数据 仓库 的 元 数据 ,例如 业务 主题 的 描述 , 即 业 
务 主题 包含 的 数据 、 查 询 及 报表 等 信息 。 


4. 访问 工具 


访问 工具 是 为 用 户 访 问 数据 仓库 提供 的 手段 ,如 数据 查询 和 报表 工具 、 应 用 开发 工具 、 
数据 挖掘 工具 和 数据 分 析 工 具 等 。 


5. 数据 集 市 (data mart) 


数据 集 市 是 为 了 特定 的 应 用 目的 ,从 数据 仓库 中 独立 出 来 的 一 部 分 数据 ,也 称 为 部 门 数 
据 或 主题 数据 。 在 数据 仓库 的 实施 过 程 中 往往 可 以 从 一 个 部 门 的 数据 集 市 着 手 , 再 逐渐 用 
几 个 数据 集 市 组 成 一 个 完整 的 数据 仓库 。 需 要 注意 的 是 ,在 实施 不 同 的 数据 集 市 时 ,相同 含 
义 字 段 的 定义 一 定 要 相 容 ,以 免 未 来 实施 数据 仓库 时 出 现 问题 。 


6. 数据 仓库 管理 


数据 仓库 管理 包括 安全 与 权限 的 管理 .数据 更 新 的 跟踪 .数据 质量 的 检查 、 元 数据 的 管 
理 与 更 新 、 数 据 仓 库 使 用 状态 的 检测 与 审计 、 数 据 复制 与 删除 数据 分 割 与 分 发 .数据 备份 与 
恢复 .数据 存储 管理 等 。 


7. 信息 发 布 系统 


信息 发 布 系统 是 把 数据 仓库 中 的 数据 或 其 他 相关 的 数据 发 送 给 不 同 的 地 点 或 用 户 。 基 
于 Web 的 信息 发 布 系统 是 当前 流行 的 多 用 户 访问 的 最 有 效 方法 。 
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1.2 数据 挖掘 的 概念 与 方法 


数据 挖掘 (data mining) 就 是 从 大 量 数据 中 获取 有 效 的 、 新 颖 的 潜在 有 用 的 、 最 终 可 理 
解 的 模式 的 过 程 。 简 单 地 说 ,数据 挖掘 就 是 从 大 量 数据 中 提取 或 “挖掘 ?知识 ,又 被 称 为 数据 
库 中 的 知识 发 现 (knowledge discovery in database, KDD)。 


121 数据 挖掘 的 分 析 方 法 


数据 挖掘 的 分 析 方法 可 以 分 为 直接 数据 挖掘 与 间接 数据 挖掘 两 类 。 

直接 数据 挖掘 的 目标 是 利用 可 用 的 数据 建立 一 个 模型 ,这 个 模型 对 剩余 的 数据 (例如 对 
一 个 特定 的 变量 ) 进 行 描述 ,包括 分 类 (classification)、 估 值 Cestimation) 和 预测 (prediction) 
等 分 析 方 法 。 

在 间接 数据 挖掘 的 目标 中 ,没有 选 出 某 一 具体 的 变量 并 用 模型 进行 描述 ,而 是 在 所 有 的 
变量 中 建立 起 某 种 关系 ,如 相关 性 分 组 (affinity grouping) 或 关联 规则 (association rules) 、 
聚 类 (clustering) ,描述 和 可 视 化 (description and visualization) 及 复杂 数据 类 型 的 挖掘 ,如 
文本 、 网 页 图形 图 像 . 音 视频 和 空间 数据 等 。 

在 后 续 的 章节 会 详细 介绍 有 关 的 数据 挖掘 分 析 方 法 。 


122 数据 仓库 与 数据 挖掘 的 关系 


若 将 数据 仓库 比 作 矿 井 , 那 么 数据 挖掘 就 是 深入 矿井 采矿 的 工作 。 数 据 挖掘 不 是 一 种 
无 中 生 有 的 魔术 ,也 不 是 点 石 成 金 的 炼金 术 , 若 没有 足够 丰富 完整 的 数据 ,将 很 难 期 待 数据 
挖掘 能 挖掘 出 什么 有 意义 的 信息 。 

要 将 庞大 的 数据 转换 成 为 有 用 的 信息 和 知识 ,必须 要 先 有 效 地 收集 信息 。 功 能 完善 的 
数据 库 管理 系统 事实 上 是 最 好 的 数据 收集 工具 ,数据 仓库 的 一 个 重要 任务 就 是 搜集 来 自 其 
他 业务 系统 的 有 用 数据 ,存放 在 一 个 集成 的 储存 区 内 。 

决策 者 利用 这 些 数据 作 决策 . 即 从 数据 仓库 中 挖掘 出 对 决策 有 用 的 信息 与 知识 ,是 建立 
数据 仓库 与 进行 数据 挖掘 的 最 大 目的 。 只 有 数据 仓库 先行 建立 完成 , 且 数据 仓库 所 含 数据 
是 干净 (不 会 有 虚假 错误 的 数据 摊 杂 其 中 ) 完备 和 经 过 整合 的 ,数据 挖掘 才能 有 效 地 进行 ， 
因此 从 一 定 意义 上 可 将 两 者 的 关系 解读 为 数据 挖掘 是 从 数据 仓库 中 找 出 有 用 信息 的 一 种 过 
程 与 技术 。 


1.3 数据 仓库 的 技术 ,方法 与 产品 


数据 仓库 技术 是 为 了 有 效 地 把 操作 型 数据 集成 到 统一 的 环境 中 以 提供 决策 型 数据 访问 
的 各 种 技术 和 模型 的 总 称 。 


13.1 OLAP 技 术 
1. 联机 事务 处 理 与 联机 分 析 处 理 的 比较 
数据 处 理 通常 分 成 两 大 类 : 联机 事务 处 理 (on-line transaction processing,OLTP) 和 联 
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机 分 析 处 理 (on-line analytical processing.OLAP)。 

OLTP 是 传统 的 操作 型 数据 库 系统 的 主要 应 用 ,主要 是 一 些 基本 的 日 常事 务 处 理 , 如 银 
行 柜台 存 取款 、 股 票 交 易 和 商场 POS 系统 等 。OLAP 是 数据 仓库 系统 的 主要 应 用 ,支持 复 
杂 的 分 析 操 作 , 侧 重 决策 支持 ,并 且 提 供 直观 易 懂 的 查询 结果 。 表 1. 1 列 出 了 OLTP 与 
OLAP 之 间 的 区 别 。 


表 1.1 OLTP 与 OLAP 的 比较 


OLTP OLAP 
用 户 操作 人 员 ,低层 管理 人 员 决策 人 员 ,高 级 管理 人 员 
功能 日 常 操作 型 事务 处 理 分 析 决 策 
数据 库 设计 目标 | 面向 应 用 面向 主题 
数据 特点 当前 的 .最 新 的 、 细 节 的 、 二 维 的 与 分 立 的 | 历史 的 .聚集 的 、 多 维 的 、 集 成 的 与 统一 的 
存 取 规模 通常 一 次 读 或 写 数 十 条 记录 可 能 读 取 百 万 条 以 上 记录 
工作 单元 一 个 事务 一 个 复杂 查询 
用 户 数 通常 是 成 千 上 万 个 用 户 可 能 只 有 几 十 个 或 上 百 个 用 户 
数据 库 大 小 通常 在 GB 级 (100MB~1GB) 通常 在 TB 级 (100GB~1TB 及 以 上 ) 


2. OLAP 技术 的 有 关 概 念 


(1) 多 维 数据 集 。 多 维 数据 集 是 联机 分 析 处 理 的 主要 对 象 , 它 是 一 个 数据 集合 ,通常 从 
数据 仓库 的 子 集 构造 ,并 组 织 汇总 成 一 个 由 一 组 维度 和 度量 值 定义 的 多 维 结构 。 

(2) 维度 。 维 度 是 OLAP 技术 的 核心 , 即 人 们 观察 客观 世界 的 角度 ,通过 把 一 个 实体 的 
一 些 重要 属性 定义 为 维 (dimension) ,使 用 户 能 对 不 同 维 属性 上 的 数据 进行 比较 研究 。 因 
此 ,“ 维 ”是 一 种 高 层次 的 类 型 划分 ,一 般 都 包含 层次 关系 ,甚至 相当 复杂 的 层次 关系 。 例 如 ， 
一 个 企业 在 考虑 产品 的 销售 情况 时 ,通常 从 时 间 、 销 售 地 区 和 产品 等 不 同 角度 来 深入 观察 产 
品 的 销售 情况 。 这 里 的 时 间 、 地 区 和 产品 就 是 维度 。 而 这 些 维 的 不 同 组 合 和 所 考查 的 度量 
值 (如 销售 额 ) 共 同 构成 的 多 维 数据 集 则 是 OLAP 分 析 的 基础 。 

(3) 度量 值 。 度 量 值 也 叫 度量 指标 ,是 多 维 数据 集中 的 一 组 数值 ,这 些 值 基于 多 维 数据 
集 的 事实 数据 表 中 的 一 列 , 是 最 终 用 户 浏览 多 维 数据 集 时 重点 查看 的 数值 数据 ,也 是 所 分 析 
的 多 维 数据 集 的 中 心 值 。 如 销售 量 、 成 本 值 和 费用 支出 等 都 可 能 成 为 度量 值 。 

(4) 多 维 分 析 。 多 维 分 析 是 指 对 以 “ 维 ” 形 式 组 织 起 来 的 数据 (多 维 数据 集 ) 采 取 切 片 
(slice) , 切 块 (dice) 、 钻 取 (drill down 和 roll up 等 ) 和 旋转 (pivot) 等 各 种 分 析 动 作 , 以 求 剖 
析 数 据 , 使 用 户 能 从 不 同 角度 .不同 侧面 观察 数据 仓库 中 的 数据 ,从 而 深入 理解 多 维 数据 集 
中 的 信息 。 多 维 分 析 操 作 通 常 包括 如 下 内 容 。 

中 钻 取 可 以 改变 维 的 层次 .变换 分 析 的 粒度 ,包括 向 上 钻 取 (roll up)、 向 下 钻 取 (dril 
down) 交叉 钻 取 (drill across) 和 钻 透 (drill through) 等 。 向 上 钻 取 即 减 少 维 数 , 是 在 某 一 维 
上 将 低层 次 的 细节 数据 概括 到 高 层次 的 汇总 数据 ; 而 向 下 钻 取 则 正好 相反 . 它 从 汇总 数据 
深入 到 细节 数据 进行 观察 ,增加 了 维 数 。 

@ 切片 和 切 块 是 在 一 部 分 维 上 选 定 值 后 ,度量 值 在 剩余 维 上 的 分 布 。 如 果 剩 余 维 有 两 
个 则 是 切片 ,如 果 有 三 个 则 是 切 块 。 

@ 旋转 是 变换 维 的 方向 , 即 在 表格 中 重新 安排 维 的 放置 .例如 行列 互 换 。 
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OLAP 技术 是 使 分 析 人 员 ,管理 人 员 或 执行 人 员 能 够 从 多 角度 对 信息 进行 快速 、 一 致 、 
交互 的 存 取 ,进而 获得 对 数据 深入 了 解 的 一 种 软件 技术 。 其 目标 是 满足 在 多 维 数据 环境 下 
的 特定 查询 与 报表 需求 ,以 及 辅助 决策 支持 的 需求 。OLAP 技术 通常 表现 为 多 维 数据 分 析 
工具 的 集合 。 


3. OLAP 的 分 类 


OLAP 根据 其 存储 数据 的 方式 可 分 为 ROLAP、MOLAP 和 HOLAP 三 类 。 

常见 的 OLAP 主要 是 基于 多 维 数据 库 的 MOLAP 及 基于 关系 数据 库 的 ROLAP 两 种 。 
MOLAP 是 以 多 维 数据 库 的 方式 组 织 和 存储 数据 ,ROLAP 则 利用 现 有 的 关系 数据 库 技术 
来 模拟 多 维 数据 。 

(1) ROLAP 表示 基于 关系 数据 库 的 OLAP 实现 (relational OLAP) , 它 以 关系 数据 库 
为 核心 ,以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。ROLAP 将 多 维 数据 集 的 多 维 结构 划 
分 为 两 类 表 : 一 类 是 事实 表 , 用 来 存储 度量 数据 和 维 关键 字 ; 另 一 类 是 维 表 , 即 针对 每 个 维 
使 用 一 个 或 多 个 表 来 存放 维 的 层次 .成员 类 别 等 维 的 描述 信息 。 维 表 和 事实 表 通 过 主 关键 
字 和 外 关键 字 联 系 在 一 起 ,形成 了 “ 星 型 模式 ”。 对 于 层次 复杂 的 维 , 为 避免 元 余数 据 占用 过 
大 的 存储 空间 ,可 以 使 用 多 个 表 来 描述 这 种 维度 ,这 实际 上 是 对 星 型 模式 的 扩展 ,由 此 产生 
的 多 维 数据 存储 模式 称 为 “雪花 型 模式 ”。 

(2) MOLAP 表示 基于 多 维 数据 结构 组 织 的 OLAP 实现 (multidimensional OLAP) , 它 
以 多 维 数据 组 织 方式 (多 维 数据 库 ) 为 核心 ,例如 MOLAP 使 用 多 维 数组 来 存储 数据 。 多 维 
数据 在 存储 中 形成 类 似 “ 立 方块 (cube) ”结构 ,在 MOLAP 中 对 “立方 块 ”( 可 以 不 止 三 维 ,而 
是 多 维 Cube) 的 “旋转 ”“ 切 块 " 和 “切片 "是 产生 多 维 数据 报表 的 主要 技术 。 

(3) HOLAP 表示 基于 混合 数据 组 织 的 OLAP 实现 (hybrid OLAP) ,如 低层 是 关系 型 
的 ,高 层 是 多 维 数组 矩阵 的 。 这 种 方式 具有 更 好 的 灵活 性 。 


4. OLAP 工具 


OLAP 工具 是 针对 特定 问题 的 联机 数据 访问 与 分 析 , 它 通过 多 维 的 方式 对 数据 进行 分 
析 、 查 询 和 报表 。 在 数据 仓库 应 用 中 ,OLAP 应 用 一 般 是 数据 仓库 应 用 的 前 端 工具 ,同时 
OLAP 工具 还 可 以 同 数据 挖掘 工具 统计 分 析 工 具 配 合 使 用 ,以 增强 决策 分 析 功 能 。 


132 数据 仓库 实施 的 关键 环节 和 技术 
数据 仓库 按照 开发 过 程 ,其 关键 环节 包括 数据 抽取 数据 存储 与 管理 和 数据 表现 等 。 
1. 数据 抽取 


数据 抽取 是 数据 进入 数据 仓库 的 入 口 。 由 于 数据 仓库 是 一 个 独立 的 数据 库 环境 , 它 需 
要 通过 抽取 过 程 将 数据 从 联机 事务 处 理 系 统 、 外 部 数据 源 、 脱 机 的 数据 存储 介质 中 导入 数据 
仓库 。 

数据 抽取 在 技术 上 主要 涉及 互 连 、 复 制 . 增 量 、 转 换 、 调 度 和 监控 等 方面 。 数 据 仓库 的 数 
据 并 不 要 求 与 联机 事务 处 理 系统 保持 实时 的 同步 ,因此 ,数据 抽取 可 以 定时 进行 ,但 多 个 抽 
取 操 作 执行 的 时 间 及 其 抽取 顺序 和 是 否 抽取 成 功 对 数据 仓库 信息 的 有 效 性 至 关 重 要 。 
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实现 抽取 既 可 以 使 用 专业 的 数据 抽取 工具 ,也 可 以 通过 直接 针对 业务 数据 开发 抽取 接 
口 程序 。 


2. 数据 存储 与 管理 


数据 仓库 真正 的 关键 环节 是 数据 的 存储 和 管理 。 数 据 仓库 的 数据 组 织 管理 方式 决定 了 
它 有 别 于 传统 操作 型 数据 库 的 特性 。 数 据 仓库 在 存储 与 管理 方面 的 特点 与 关键 技术 如 下 。 

(1) 数据 仓库 面 对 的 是 大 量 数据 的 存储 和 管理 。 这 里 所 涉及 的 数据 量 比 传统 事务 处 理 
大 得 多 , 且 随 时 间 的 推移 而 累积 。 从 现 有 技术 和 产品 来 看 ,只 有 关系 数据 库 管 理 系 统 能 够 担 
当 此 重任 。 关 系数 据 库 经 过 近 30 年 的 发 展 ,在 数据 存储 和 管理 方面 已 经 非常 成 熟 , 非 其 他 
数据 管理 系统 可 比 。 目 前 不 少 关系 数据 库 管 理 系统 已 支持 数据 分 割 技术 ,能 够 将 一 个 大 的 
数据 库 表 分 散 到 多 个 物理 存储 设备 中 ,进一步 增强 了 系统 管理 大 数据 量 的 扩展 能 力 。 采 用 
关系 数据 库 管理 几 百 个 GB 甚至 是 TB 级 的 数据 已 是 很 平常 的 事情 。 

(2) 并 行 处 理 。 在 传统 联机 事务 处 理应 用 中 ,用 户 访问 系统 的 特点 是 快速 而 密集 地 访 
问 少量 数据 ,因此 ,处 理 好 并 发 操作 是 其 关键 。 而 在 数据 仓库 系统 中 ,用 户 访 问 系 统 的 特点 
是 庞大 而 稀 玖 ,每 一 个 查询 和 统计 都 很 复杂 ,但 访问 的 频率 并 不 是 很 高 。 系 统 需 要 有 能 力 将 
所 有 的 软 硬 件 资源 调动 起 来 ,为 这 一 复杂 的 查询 请 求 服务 ,并 对 该 请 求 作 并 行 处 理 。 因 此 ， 
并 行 处 理 技术 在 数据 仓库 中 显得 尤为 重要 。 

(3) 针对 决策 支持 查询 的 优化 。 在 技术 上 ,针对 决策 支持 的 优化 涉及 关系 数据 库 系统 
的 索引 机 制 .查询 优化 器 .连接 策略 ,数据 排序 和 采样 等 多 个 因素 。 一 般 关系 数据 库 管 理 系 
统 采用 的 BB 树 索 引 对 于 性 别 、 年 龄 和 地 区 等 具有 大 量 重复 值 的 字段 几乎 没有 效果 。 不 过 ， 
当前 大 多 数 关系 数据 库 管理 系统 已 引入 了 位 图 索引 机 制 ,以 二 进 制 位 表示 字段 的 状态 ,将 查 
询 过 程 变 为 筛选 过 程 ,可 快速 筛选 多 条 记录 。 

由 于 数据 仓库 中 各 数据 表 的 数据 量 分 布 往往 极 不 均匀 ,普通 查询 优化 器 所 得 出 的 最 佳 
查询 路 径 可 能 不 是 最 优 的 。 因 此 ,面向 决策 支持 的 关系 数据 库 在 查询 优化 器 上 也 做 了 改进 ， 
而 且 根据 索引 的 使 用 特性 增加 了 多 重 索引 扫描 机 制 和 连接 索引 机 制 。 数 据 仓库 的 查询 常常 
只 需要 数据 库 中 的 部 分 记录 ,如 消费 最 多 的 前 10 名 客户 等 , 且 针 对 数据 仓库 的 查询 有 时 并 
不 需要 像 事务 处 理 系 统 那样 精确 ,但 要 求 在 大 容量 数据 环境 中 有 足够 短 的 系统 响应 时 间 。 
因此 ,多 数 关系 数据 库 管理 系统 都 对 数据 仓库 和 决策 支持 应 用 提供 单独 的 系统 安装 选项 ,并 
针对 数据 仓库 应 用 提供 诸如 基于 数据 采样 的 查询 能 力 , 进 而 在 精确 度 允 许 的 范围 内 ,大 幅度 
提高 系统 查询 效率 。 

(4) 支持 多 维 分 析 的 查询 模式 。 这 也 是 关系 数据 库 管 理 系 统 在 数据 仓库 领域 遇 到 的 最 
严峻 挑战 之 一 。 用 户 在 使 用 数据 仓库 时 的 访问 方式 与 传统 关系 数据 库 有 很 大 的 不 同 。 对 于 
数据 仓库 的 访问 往往 不 是 简单 的 表 和 记录 的 查询 ,而 是 基于 用 户 业 务 主题 的 分 析 模 式 , 即 联 
机 分 析 。 它 的 特点 是 将 数据 想象 成 多 维 的 立方 体 .用 户 的 查询 便 相当 于 在 其 中 的 部 分 维 上 
施加 条 件 ,对 立方 体 进行 切片 .分 割 , 得 到 的 结果 则 是 数值 矩阵 或 向 量 , 然 后 将 其 制 成 图 表 或 
输入 统计 分 析 的 算法 。 关 系数 据 库 本 身 没 有 提供 这 种 多 维 分 析 的 查询 功能 ,针对 此 问题 ,一 
般 采用 多 维 数据 库 或 星 型 模式 等 技术 。 

@ 多 维 数据 库 是 一 种 以 多 维 数据 结构 存储 形式 来 组 织 数据 的 数据 管理 系统 , 它 不 是 关 
系数 据 库 ,在 使 用 时 需要 将 数据 从 关系 数据 库 中 加 载 到 多 维 数据 库 中 方 可 访问 。 采 用 多 维 
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数据 库 实现 的 联机 分 析 应 用 就 是 上 面 提 到 的 MOLAP。 但 多 维 数据 库 通常 缺少 关系 数据 库 
所 拥有 的 并 行 处 理 能 力 和 大 规模 数据 管理 的 扩展 性 ,因此 难以 承担 大 型 数据 仓库 应 用 ,通常 
作为 数据 集 市 的 一 种 实现 方式 。 

@ 星 型 模式 是 指 关 系数 据 库 系统 通过 采用 * 星 型 模式 或 类 似 结 构 来 组 织 数据 ,以 解决 
多 维 分 析 问 题 。 星 型 模式 可 以 将 用 户 的 多 维 查询 请 求 转 换 成 针对 该 数据 模式 的 标准 SQL 
语句 ,而 且 该 语句 是 最 优化 的 。 星 型 模式 的 应 用 为 关系 数据 库 在 数据 仓库 领域 的 应 用 提供 
了 广阔 的 前 景 。 采 用 关系 数据 库 实 现 的 联机 分 析 应 用 即 是 上 面 提 到 的 ROLAP。 目前 ,大 
多 数 数据 仓库 厂商 提供 的 数据 仓库 解决 方案 都 采用 ROLAP 数据 存储 方式 。 因 此 ,针对 决 
策 支 持 应 用 做 过 优化 的 并 行 关 系数 据 库 技术 仍 是 数据 仓库 的 核心 和 关键 技术 。 


3. 数据 表现 


数据 表现 是 数据 仓库 的 展示 界面 。 针 对 数据 表现 的 工具 主要 集中 在 多 维 分 析 、 统 计 分 
析 和 数据 挖掘 等 方面 。 

(1) 多 维 分 析 是 数据 仓库 的 重要 表现 形式 ,由 于 MOLAP 系统 是 专用 的 ,因此 ,关于 多 
维 分 析 领 域 的 工具 和 产品 大 多 是 ROLAP 工具 。 这 些 产 品 多 数 都 能 支持 数据 的 Web 发 布 ， 
并 提供 基于 Web 的 前 端 联机 分 析 界 面 。 

(2) 统计 分 析 其 实 与 数据 仓库 没有 直接 的 联系 ,但 在 实际 的 数据 仓库 应 用 中 ,客户 通常 
需要 通过 对 数据 的 统计 分 析 来 验证 对 某 些 事物 或 事件 的 假设 ,以 进行 决策 。 

(3) 数据 挖掘 不 仅 要 验证 人 们 对 数据 特性 的 假设 ,而 且 它 还 要 主动 寻找 并 发 现 列 藏 在 
数据 之 中 的 规律 。 如 前 面 1. 2 节 所 述 ,数据 挖掘 是 从 大 量 的 数据 中 挖掘 那些 令 人 感 兴趣 的 、 
有 用 的 、 非 平凡 且 隐 藏 着 的 、 先 前 未 知 却 潜在 有 用 的 模式 或 知识 。 

因此 ,数据 挖掘 是 建立 在 企业 数据 仓库 之 上 的 重要 应 用 之 一 ,从 数据 仓库 的 海量 数据 中 
寻找 有 用 的 信息 。 根 据 企 业 自身 的 业务 特点 制定 应 用 模型 ,结合 数据 挖掘 的 一 些 成 熟 算 法 ， 
让 企业 数据 仓库 中 的 海量 数据 成 为 企业 重要 的 信息 决策 源 。 不 过 ,当前 市 面 上 的 通用 数据 
挖掘 工具 大 多 仍 是 统计 分 析 工 具 的 改进 ,它们 并 不 能 很 好 地 寻找 出 数据 的 规律 ,而 是 验证 尽 
可 能 多 的 假设 。 因 此 ,根据 企业 业务 需求 设计 专用 的 数据 挖掘 模型 是 数据 挖掘 应 用 的 关键 
环节 。 


133 数据 仓库 实施 方法 论 


在 数据 仓库 的 实施 过 程 中 ,首先 必须 搞 清 如 下 问题 : 数据 仓库 提供 哪些 部 门 使 用 ? 各 
部 门 如 何 发 挥 数据 仓库 的 决策 效益 ? 数据 仓库 需要 存放 哪些 数据 ? 这 些 数据 以 什么 样 的 结 
构 存放 ? 数据 从 哪里 装载 ? 装载 的 频率 多 少 为 合适 ? 建立 数据 仓库 需要 选择 哪些 数据 管理 
产品 和 工具 ? 

数据 仓库 不 是 简单 的 数据 或 产品 堆砌 , 它 是 一 个 综合 集成 解决 方案 和 系统 工程 。 在 数 
据 仓 库 的 实施 过 程 中 ,技术 决策 至 关 重 要 ,技术 选择 或 决策 错误 很 可 能 导致 项 目 实施 失败 。 


134 常用 的 数据 仓库 产品 
1. 常用 的 OLAP 工具 介绍 
OLAP 这 个 名 词 是 在 1993 年 由 E. 下. Codd 提出 来 的 ,但 目前 市 场 上 的 主流 产品 几乎 都 
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是 在 1993 年 之 前 就 已 问世 ,有 的 甚至 已 有 三 十 多 年 的 历史 了 。OLAP 产品 不 少 , 下 面 主要 
介绍 Cognos(Powerplay)、 Hyperion(Essbase) 和 MicroStrategy 等 独立 厂商 及 关系 数据 库 
厂商 提供 的 相关 产品 。 

(1) MOLAP 产品 是 将 数据 从 关系 数据 库 ,甚至 是 文本 文件 ,Excel 文件 中 抽取 出 来 , 存 

储 在 自己 的 数据 库 中 。 

@ Cognos 从 桌面 OLAP 起 家 。 所 谓 桌 面 OLAP, 即 是 可 以 用 客户 端 将 Cube 下 载 到 本 

地 进行 访问 , 现 也 已 开发 出 C/S( 客 户 端 /服务 器 ) 结 构 及 B/S( 浏 览 器 /服务 器 ) 结 构 的 

OLAP 服务 器 ,提供 可 以 简洁 部 署 且 具有 交互 性 的 PowerPlay Web Explorer 界面 。 另 外 ， 

Cognos Powerplay 是 个 相对 封闭 的 产品 , 它 有 自己 的 客户 端 和 Web Explorer。 

@ Essbase 作为 老牌 的 OLAP 服务 器 ,是 一 个 比较 复杂 的 产品 ,采用 以 服务 器 为 中 心 

的 分 布 式 体系 结构 ,提供 丰富 的 API, 具 有 几 百 个 计算 公式 ,支持 多 种 计算 ,用 户 可 以 自己 构 

建 复杂 的 查询 ,可 以 充分 定制 开发 ,有 30 多 个 前 端 工具 可 供 选 择 ,支持 多 种 财务 标准 ,能 与 

ERP 或 其 他 数据 源 集成 ; 但 开发 难度 较 大 ,部 署 也 不 容易 。 

(2) ROLAP 独立 产品 仍 将 数据 存放 在 关系 数据 库 中 ,通常 遵循 星 型 模式 或 雪花 型 模 

式 , 会 定义 维度 .度量 .事实 表 和 聚集 表 等 元 数据 。 从 第 一 个 独立 ROLAP 产品 Metaphor 

到 Metacube、WhiteLight、MicroStrategy, 其 实 独 立 的 ROLAP 产品 不 太 好 发 展 ,目前 只 有 

MicroStrategy 发 展 势头 较 好 。 很 多 OLAP 产品 都 会 混合 MOLAP 和 ROLAP, 特 别 是 那些 

本 身 就 做 关系 数据 库 的 厂商 ,在 现 有 数据 库 上 面 增加 一 些 ROLAP 的 特性 常常 比较 容易 , 且 

性 能 也 相对 较 好 。 

(3) 关系 数据 库 厂商 提供 的 OLAP 产品 系列 主要 有 如 下 几 种 。 

Q@ Oracle 公司 提供 的 OLAP 前 端 展 示 工 具 ,包括 如 下 几 种 。 

。 Discoverer: 主要 针对 关系 型 的 数据 库 仓库 分 析 , 即 席 查询 , 即 ROLAP 使 用 。 

。 Express: 主要 针对 多 维 的 数据 仓库 使 用 . 即 MOLAP., 它 的 使 用 比 Discoverer 的 使 
用 要 复杂 。 提 供 一 组 存储 过 程 语言 来 支持 对 数据 的 抽取 ,有 内 建 的 分 析 函 数 ,数据 
可 以 存放 在 Express Server 内 ,也 可 直接 在 RDB 上 使 用 。 

。 Reports: 可 以 方便 地 从 数据 库 直 接生 成 报表 ,并 可 基于 Web 发 布 报表 。 

@ 微软 公司 的 产品 向 来 以 友好 的 用 户 界面 著称 ,上 手 迅 速 。 在 OLAP 产品 上 ,微软 公 

司 依 然 发 扬 了 这 一 优良 传统 ,并 有 进一步 标准 化 的 趋势 ,开发 了 OLE DB for OLAP 以 及 

MDX(multi-dimensional express, 多 维 表达 式 )。 目 前 ,SQL Server 自 带 的 OLAP 相关 产品 

包括 如 下 几 种 。 

。 SQL Server Analysis Services(SQL Server 分 析 服 务 ,SSAS): 属于 多 维 数据 库 产 
品 , 即 MOLAP。SQL Server 分 析 服 务 通过 服务 器 和 客户 端 技术 的 组 合 提供 联机 分 
析 处 理 和 数据 挖掘 功能 ,并 为 设计 、 创 建 , 部 署 和 维护 商业 智能 应 用 程序 提供 专用 的 

发 和 管理 环境 。 

。 SQL Server Integration Services(SSIS) : 这 是 一 个 具有 企业 级 开发 能 力 的 ETL 平 
台 , 可 通过 SSIS 完成 数据 抽取 、 转 换 , 并 加 载 企业 数据 仓库 ,不 仅仅 用 来 简单 地 传输 
和 转换 数据 ,还 可 以 用 来 对 建立 Business Intelligence 平台 的 数据 进行 集成 、 转 移 、 
扩展 .过 滤 和 修正 .并 具有 很 多 内 置 的 数据 清理 功能 。SSIS 可 以 将 数据 直接 导入 到 
SQL Server 分 析 服 务 的 Cube 中 。 
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。 SQL Server Reporting Services(SSRS): 用 于 报表 设计 。 
@ IBM DB2 OLAP Server, 把 Hyperion Essbase 的 OLAP 引擎 和 DB2 的 关系 数据 库 
集成 在 一 起 ,与 Essbase API 完全 兼容 ,数据 用 星 型 模型 存放 在 关系 数据 库 DB2 中 。 


2. 各 数据 仓库 厂商 提供 的 解决 方案 简介 


(1) IBM 公司 提供 了 一 套 基 于 可 视 化 数据 仓库 的 商业 智能 (Business Intelligence，BI) 
解决 方案 ,包括 Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB 
以 及 来 自 第 三 方 的 前 端 数 据 展现 工具 (如 BO) 和 数据 挖掘 工具 (如 SAS)。 其 中 ,VW 是 一 
个 功能 很 强 的 集成 环境 , 既 可 用 于 数据 仓库 建 模 和 元 数据 管理 ,又 可 用 于 数据 抽取 、 转 换 、 装 
载 和 调度 ; Essbase/DB2 OLAP Server 支持 * 维 ”的 定义 和 数据 装载 它 ,不 是 ROLAP 服务 
器 ,而 是 一 个 混合 的 (ROLAP 和 MOLAP)HOLAP 服务 器 。 在 Essbase 完成 数据 装载 后 ， 
数据 存放 在 系统 指定 的 DB2 UDB 数据 库 中 , 它 的 前 端 数据 展现 工具 可 以 选择 Business 
Objects 公司 的 BO、Lotus 公司 的 Approach、Cognos 公司 的 Impromptu 或 IBM 公司 的 
Query Management Facility; 多 维 分 析 工 具 支持 Arbor Software 公司 的 Essbase 和 IBM 公 
司 ( 与 Arbor 公司 联合 开发 ) 的 DB2 OLAP 服务 器 ; 统计 分 析 工 具 采 用 SAS 系统 。 

(2) Oracle 数据 仓库 解决 方案 主要 包括 Oracle Express 和 Oracle Discoverer 两 个 部 
分 。Oracle Express 由 4 个 工具 组 成 : Oracle Express Server 是 一 个 MOLAP( 多 维 OLAP) 
服务 器 , 它 利 用 多 维 模型 存储 和 管理 多 维 数据 库 或 多 维 高 速 缓存 ,同时 也 能 够 访问 多 种 关系 
数据 库 ; Oracle Express Web Agent 通过 CGI 或 Web 插件 支持 基于 Web 的 动态 多 维 数据 
展现 ; Oracle Express Objects 前 端 数 据 分 析 工 具 ( 目 前 仅 支持 Windows 平台 ) 提 供 了 图 形 
化 建 模 和 假设 分 析 功 能 ,支持 可 视 化 开发 和 事件 驱动 编程 技术 ,提供 了 兼容 Visual Basic 语 
法 的 语言 ,支持 OCX 和 OLE; Oracle Express Analyzer 是 通用 的 、 面 向 最 终 用 户 的 报告 
分 析 工 具 ( 目 前 仅 支持 Windows 平台 )。Oracle Discoverer 即席 查询 工具 是 专门 为 最 终 用 
户 设计 的 ,分 为 最 终 用 户 版 和 管理 员 版 。 

在 Oracle 数据 仓库 解决 方案 的 实施 过 程 中 ,通常 把 汇总 数据 存储 在 Express 多 维 数据 
库 中 ,而 将 详细 数据 存储 在 Oracle 关系 数据 库 中 , 当 需 要 详细 数据 时 ,Express Server 通过 
构造 SQL 语句 访问 关系 数据 库 。 

(3) NCR Teradata 是 高 端 数据 仓库 市 场 最 有 力 的 竞争 者 ,主要 运行 在 NCR 
WorldMark SMP 硬件 的 UNIX 操作 系统 平台 上 。 从 1998 年 开始 ,该 公司 也 提供 了 基于 
Windows 平台 的 Teradata, 试 图 开拓 数据 集 市 市 场 。NCR 的 产品 性 能 很 好 ,但 产品 价格 相 
对 较 高 ,中 小 企业 用 户 难 以 接受 ,其 联机 多 维 分 析 相 对 较 弱 。 

(4) 微软 公司 将 OLAP 功能 集成 到 SQL Server 数据 库 中 ,其 解决 方案 包括 BI 平台 、BI 
终端 工具 、BI 门户 和 BI 应 用 4 个 部 分 ,如 图 1.1 所 示 。 

Q@ BI 平台 是 BI 解决 方案 的 基础 ,包括 ETL 平台 SQL Server 2005 Integration Service 
(SSIS) ,数据 仓库 引擎 SQL Server 2005 RDBMS 以 及 多 维 分 析 和 数据 挖掘 引擎 SQL 
Server 2005 Analysis Service、 报 表 管 理 引擎 SQL Server 2005 Reporting Service。 

@ 用 户 通过 BI 终端 用 户 工具 同 Analysis Service 中 的 OLAP 服务 和 数据 挖掘 服务 进 
行 交 互 来 使 用 多 维 数据 集 和 数据 挖掘 模型 ,终端 用 户 通 常 可 使 用 预定 义 报表 、 交 互 式 多 维 分 
析 、 即 席 查 询 数据 可 视 化 和 数据 挖掘 等 多 种 方法 。 
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BI 解决 方案 
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Windows Server 2003 


图 1.1 微软 公司 的 数据 仓库 解决 方案 


@ BI 门户 提供 了 各 种 不 同 用 户 访 问 BI 信息 的 统一 入 口 。BI 门户 是 一 个 数据 的 汇集 
地 ,集成 了 来 自 不 同系 统 的 相关 信息 。 用 户 可 以 制定 个 性 化 的 个 人 门户 ,选择 和 自己 相关 性 
最 强 的 数据 ,提高 信息 访问 和 使 用 的 效率 。 

@ BI 应 用 是 建立 在 BI 平台 、BI 终端 用 户 工具 和 BI 统一 门户 这 些 公 共 技 术 手 段 之 上 
的 满足 某 个 特定 业务 需求 的 应 用 ,例如 零售 业务 分 析 、 企 业 项 目 管理 组 合 分 析 等 。 

(5) SAS 公司 在 20 世纪 70 年 代 以 "统计 分 析 ” 和 "线性 数学 模型 而 享誉 业界 ,90 年代 
以 后 ,SAS 公司 也 加 入 了 数据 仓库 市 场 的 竞争 ,并 提供 了 特点 鲜明 的 数据 仓库 解决 方案 , 包 
括 30 多 个 专用 模块 。 其 中 ,SAS/WA(warehouse administrator) 是 建立 数据 仓库 的 集成 管 
理工 具 , 包 括 定 义 主题 .数据 转换 与 汇总 .更 新 汇总 数据 .元 数据 管理 和 数据 集 市 的 实现 等 ; 
SAS/MDDB 是 SAS 用 于 在 线 分 析 的 多 维 数据 库 服务 器 ; SAS/AF 提供 了 屏幕 设计 功能 和 
用 于 开发 的 SCL( 屏 幕 控 制 语言 ); SAS/ITSV (IT service vision) 是 IT 服务 的 性 能 评估 和 
管理 的 软件 ,这 些 IT 服务 包括 计算 机 系统 、 网 络 系统 、Web 服务 器 和 电话 系统 等 。SAS 系 
统 的 优点 是 功能 强 、. 性 能 高 .特长 突出 ,缺点 是 系统 比较 复杂 。 

(6) BO(Cbusiness objects) 是 集 查 询 .报表 和 OLAP 技术 于 一 身 的 智能 决策 支持 系统 。 
它 使 用 独特 的 “语义 层 ” 技 术 和 “动态 微 立方 ”技术 来 表示 数据 库 中 的 多 维 数据 ,具有 和 较 好 的 
查询 和 报表 功能 ,提供 钻 取 等 多 维 分 析 技 术 ,支持 多 种 数据 库 , 同 时 它 还 支持 基于 Web 浏览 
器 的 查询 ,报表 和 分 析 决 策 。 虽 然 BO 在 不 断 增加 新 的 功能 ,但 从 严格 意义 上 说 ,BO 仍 只 能 
算是 一 个 优秀 的 前 端 工具 ,几乎 所 有 的 数据 仓库 解决 方案 都 把 BO 作为 可 选 的 数据 展现 工 
具 。BO 公司 于 2008 年 初 被 德国 软件 巨头 SAP 公司 收购 。 


1.4 数据 仓库 系统 的 体系 结构 


数据 仓库 系统 通常 是 对 多 个 异 构 数 据 源 的 有 效 集成 ,集成 后 按照 主题 进行 重组 ,包含 历 
史 数 据 。 存 放 在 数据 仓库 中 的 数据 通常 不 再 修改 ,用 于 做 进一步 的 分 析 型 数据 处 理 。 
数据 仓库 系统 的 建立 和 开发 是 以 企 事 业 单位 的 现 有 业务 系统 和 大 量 业务 数据 的 积累 为 
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基础 的 。 数 据 仓 库 不 是 一 个 静态 的 概念 ,只 有 把 信息 适时 地 交 给 需要 这 些 信 息 的 使 用 者 , 供 
他 们 作出 改善 其 业务 经 营 的 决策 ,信息 才能 发 挥 作用 ,信息 才 有 意义 。 因 此 ,把 信息 加 以 整 
理 归 纳 和 重组 ,并 及 时 提供 给 相应 的 管理 决策 人 员 是 数据 仓库 的 根本 任务 。 数 据 仓 库 的 开 
发 是 全 生命 周期 的 ,通常 是 一 个 循环 迭代 开发 过 程 。 

一 个 典型 的 数据 仓库 系统 通常 包含 数据 源 、 数 据 存储 与 管理 .OLAP 服务 器 以 及 前 端 
工具 与 应 用 4 个 部 分 。 


1. 数据 源 


数据 源 是 数据 仓库 系统 的 基础 , 即 系统 的 数据 来 源 , 通 常 包括 企业 (或 事业 单位 ) 的 各 种 
内 部 信息 和 外 部 信息 。 内 部 信息 ,例如 存 于 操作 型 数据 库 中 的 各 种 业务 数据 和 办 公 自 动 化 
系统 中 包含 的 各 类 文档 数据 ; 外 部 信息 ,例如 各 类 法 律 法 规 \ 市 场 信息 、 竞 争 对 手 的 信息 以 
及 各 类 外 部 统计 数据 及 其 他 有 关 文 档 等 。 


2. 数据 的 存储 与 管理 


数据 的 存储 与 管理 是 整个 数据 仓库 系统 的 核心 。 在 现 有 各 业务 系统 的 基础 上 ,对 数据 
进行 抽取 、 清 理 , 并 有 效 集成 ,按照 主题 进行 重新 组 织 , 最 终 确 定数 据 仓 库 的 物理 存储 结构 ， 
同时 组 织 存 储 数据 仓库 元 数据 (包括 数据 仓库 的 数据 字典 .记录 系统 定义 数据 转换 规则 、 数 
据 加 载 频率 以 及 业务 规则 等 信息 ) 。 按 照 数 据 的 覆盖 范围 和 存储 规模 ,数据 仓库 可 以 分 为 企 
业 级 数据 仓库 和 部 门 级 数据 仓库 。 对 数据 仓库 系统 的 管理 也 就 是 对 其 相应 数据 库 系 统 的 管 
理 ,通常 包括 数据 的 安全 ,归档 备份 .维护 和 恢复 等 工作 。 


3. OLAP 服务 器 


OLAP 服务 器 对 需要 分 析 的 数据 按照 多 维 数据 模型 进行 重组 ,以 支持 用 户 随时 从 多 角 
度 .多 层次 来 分 析 数 据 ,发现 数据 规律 与 趋势 。 如 1. 3. 1 节 所 述 ,OLAP 服务 器 通常 有 如 下 
3 种 实现 方式 。 

(1) ROLAP 基本 数据 和 聚合 数据 均 存放 在 RDBMS 之 中 。 

(2) MOLAP 基本 数据 和 聚合 数据 均 存 放 于 多 维 数据 集中 。 

(3) HOLAP 是 ROLAP 与 MOLAP 的 综合 ,基本 数据 存放 于 RDBMS 之 中 ,聚合 数据 
存放 于 多 维 数据 集中 。 


4. 前 端 工具 与 应 用 


前 端 工具 主要 包括 各 种 数据 分 析 工具 ,报表 工具 ,查询 工具 ,数据 挖掘 工具 以 及 各 种 基 
于 数据 仓库 或 数据 集 市 开发 的 应 用 。 其 中 ,数据 分 析 工 具 主要 针对 OLAP 服务 器 ; 报表 工 
具 ,数据 挖掘 工具 既 可 针对 数据 仓库 ,也 可 针对 OLAP 服务 器 。 

数据 仓库 系统 的 体系 结构 根据 应 用 需求 的 不 同 ,可 以 分 为 以 下 4 种 类 型 。 

(1) 两 层 架 构 (generic two-level architecture) 。 

(2) 独立 型 数据 集 市 (independent data mart) 。 

(3) 依赖 型 数据 集 市 和 操作 型 数据 存储 (dependent data mart and operational data 


Store) 。 
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(4) 逻辑 型 数据 集 市 和 实时 数据 仓库 (logical data mart and real-time data warehouse) 。 
14.1 独立 的 数据 仓库 体系 结构 


通常 的 数据 仓库 是 两 层 体系 结构 ,如 图 1. 2 所 示 。 构 造 这 种 体系 结构 需要 以 下 4 个 基 
本 步骤 。 

(1) 数据 是 从 各 种 内 外 部 的 源 系 统 文件 或 数据 库 中 抽取 得 到 。 在 一 个 大 的 组 织 中 ,可 
能 有 几 十 个 甚至 几 百 个 这 样 的 文件 和 数据 库 系统 。 

(2) 不 同 源 系 统 中 的 数据 在 加 载 到 数据 仓库 之 前 需要 被 转换 和 集成 。 甚 至 可 能 需要 发 
送 一 些 事务 信息 到 源 系统 中 ,以 纠正 在 数据 分 段 传输 中 发 现 的 错误 。 

(3) 建立 为 决策 支持 服务 的 数据 库 , 即 数据 仓库 , 它 通 常会 同时 包括 详细 的 和 概括 的 
数据 。 

(4) 用 户 通 过 SQL 查询 语言 或 分 析 工具 访问 数据 仓库 ,其 结果 又 会 反馈 到 数据 仓库 和 
操作 型 数据 库 中 。 


| 
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图 1.2 两 层 数据 仓库 体系 结构 示意 图 


数据 仓库 环境 最 重要 的 三 个 环节 包括 抽取 (extract) 、 转 换 (transform) 及 加 载 (load, 把 
数据 从 源 数据 系统 中 加 载 到 数据 仓库 ) , 即 ETL 过 程 。 

抽取 和 加 载 通常 是 定期 的 , 即 每 天 、 每 星期 或 每 个 月 。 因 此 .数据 仓库 常常 没有 或 者 说 
不 需要 有 当前 数据 。 数 据 仓库 不 支持 操作 型 事务 处 理 . 虽 然 它 含有 事务 型 数据 (但 更 多 的 是 
事务 的 概括 和 变量 状态 的 快照 ,如 账户 余额 和 库存 级 别 等 )。 对 大 多 数 数据 仓库 应 用 来 说 ， 
用 户 不 是 寻找 对 个 别 事务 的 反应 ,而 是 寻求 包含 在 整个 数据 仓库 中 的 一 个 特定 子 集 上 的 企 
业 ( 或 其 他 组 织 ) 状 态 的 趋势 和 模式 。 例 如 ,通常 会 有 5 个 季度 及 以 上 的 财务 数据 保存 在 数 
据 仓库 中 ,以 便 识别 趋势 和 模式 。 过 于 陈旧 的 数据 如 果 确 定 对 决策 分 析 已 没有 意义 ,也 可 被 
清除 或 者 存档 。 


14 | 
国 据 仓库 与 数据 挖掘 


142 基于 独立 数据 集 市 的 数据 仓库 体系 结构 


一 些 企业 或 事业 组 织 由 于 其 特殊 的 业务 需求 或 历史 原因 , 刚 开始 时 并 没有 建立 数据 仓 
库 , 而 是 创建 了 许多 分 离 的 数据 集 市 。 其 实 , 每 一 个 数据 集 市 都 是 基于 数据 仓库 技术 的 ,而 
不 是 基于 事务 处 理 的 数据 库 技术 。 数据 集 市 是 范围 受 限 的 小 型 数据 仓库 (mini- 
warehouses) , 常 适用 于 特定 终端 用 户 群 制定 决策 应 用 。 在 这 种 情况 下 ,每 个 独立 数据 集 市 
的 内 容 都 来 自 于 独立 的 ETL 处 理 过 程 。 下 述 其 他 情况 的 数据 集 市 内 容 则 可 能 来 源 于 数据 
仓库 。 数 据 集 市 被 设计 用 来 优化 定义 明确 的 和 可 预测 的 使 用 性 能 ,通常 包括 单个 或 一 组 针 
对 某 特殊 应 用 的 查询 功能 ,如 市 场 数据 集 市 .财务 数据 集 市 和 供应 链 数 据 集 市 等 。 

相对 于 其 他 数据 仓库 体系 结构 ,独立 型 数据 集 市 策略 的 一 个 明显 特性 是 : 当 需 要 访问 
分 离 的 数据 集 市 中 的 数据 时 ,对 终端 用 户 来 说 具有 相对 的 复杂 性 (如 图 1. 3 所 示 , 由 互相 交 
叉 的 连 线 来 表示 , 连 线 连接 所 有 数据 集 市 到 终端 用 户 表示 工具 )。 这 个 复杂 性 不 仅 来 自 于 从 
分 离 的 数据 集 市 数据 库 访问 数据 ,而 且 可 能 来 自 于 不 一 致 的 数据 系统 产生 的 数据 集 市 。 如 
果 有 一 个 元 数据 集合 跨越 所 有 的 数据 集 市 , 且 数据 集 市 上 的 数据 通过 数据 分 段 传 输 时 保存 
一 致 ( 即 数据 分 段 传 输 中 拥有 “一致 维 ”) ,那么 ,对 用 户 来 说 复杂 性 就 减 小 了 。 另 一 方面 是 其 
ETL 处 理 的 复杂 性 ,因为 需要 为 每 一 个 独立 的 数据 集 市 创建 一 个 抽取 、 转 换 和 加 载 过 程 。 
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图 1.3 独立 数据 集 市 数据 仓库 体系 结构 示意 图 


因为 一 个 企业 或 事业 组 织 集 中 于 一 系列 短期 的 业务 目的 ,独立 的 数据 集 市 经 常 被 建立 。 
有 限 的 短期 目标 同 需要 相对 较 低 成 本 来 实现 更 加 独立 的 数据 集 市 相 兼 容 。 然 而 ,从 数据 仓 
库 体系 结构 的 角度 来 说 ,围绕 一 些 不 同 的 短期 目标 来 设计 整个 数据 仓库 环境 ,意味 着 失去 了 
应 对 长 期 目标 及 业务 环境 变化 的 能 力 和 灵活 性 。 而 这 种 应 变 能 力 对 决策 支持 来 说 是 至 关 重 
要 的 。 

采用 这 种 体系 结构 的 优点 是 其 方便 性 ,可 快速 启动 .这 种 数据 仓库 架构 可 通过 一 系列 的 
小 项 目 来 实现 。 在 一 个 大 的 企业 或 事业 单位 中 ,相对 于 使 所 有 的 下 属 组 织 在 一 个 中 心 数 据 
仓库 中 形成 一 致 视图 来 说 ,在 组 织 上 ,政策 上 更 容易 拥有 独立 的 ,小 型 数据 仓库 。 男 外 ,一 些 
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数据 仓库 技术 在 它们 支持 的 数据 仓库 大 小 上 有 一 定局 限 性 (或 称 为 可 扩展 性 ) ,但 是 ,如 果 在 
理解 数据 仓库 业务 需求 之 前 就 把 自己 局 限 在 特定 的 数据 仓库 技术 上 , 则 是 由 技术 决定 的 数 
据 仓 库 体系 结构 ,而 通常 的 情况 是 业务 需求 才 是 关键 的 技术 架构 决定 因素 。 

独立 型 数据 集 市 架构 的 局 限 性 包括 如 下 方面 。 

(1) 为 每 一 个 数据 集 市 开发 一 个 独立 的 ETL 过 程 , 它 可 能 产生 高 代价 的 宛 余数 据 和 重 
复 处 理工 作 。 

(2) 数据 集 市 可 能 是 不 一 致 的 ,因为 它们 常常 是 用 不 同 的 技术 来 开发 的 。 因 此 ,不 能 提 
供 一 个 清晰 的 企业 级 数据 视图 ,而 这 样 的 数据 视图 可 能 涉及 到 重要 的 主题 ,如 客户 、 供 应 商 
和 产品 等 。 

(3) 没有 能 力 下 钻 到 更 小 的 细节 或 与 其 他 数据 集 市 有 关 的 事实 或 者 共享 的 数据 信息 
库 , 因 此 分 析 是 有 局 限 性 的 。 要 想 获得 全 面 数 据 , 则 需要 在 不 同 数据 集 市 的 分 离 平台 上 做 连 
接 ,但 跨 数据 集 市 的 数据 关联 任务 要 由 数据 集 市 的 外 部 系统 来 执行 。 

(4) 规模 扩大 的 成 本 高 ,因为 每 一 个 新 的 应 用 创建 了 一 个 分 离 的 数据 集 市 ,都 要 重复 所 
有 的 抽取 和 加 载 步骤 。 通 常情 况 下 ,对 批 数据 抽取 来 说 ,操作 型 系统 有 有 限 的 时 间 窗 口 ( 如 
每 天 0 一 5 点 )。 如 果 想 让 分 离 的 数据 集 市 一 致 ,成 本 将 会 很 高 。 
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解决 独立 数据 集 市 架构 局 限 性 的 方法 之 一 是 使 用 基于 依赖 型 数据 集 市 (dependent data 
mart) 和 操作 型 数据 存储 (operational data store, ODS) 的 数据 仓库 体系 结构 。 通 过 从 企业 
级 数据 仓库 (enterprise data warehouse. EDW) 中 加 载 依赖 型 数据 集 市 ,在 整个 体系 架构 中 
只 使 用 单一 的 ETL 过 程 ,确保 了 ETL 的 效率 和 数据 集 市 数据 的 一 致 性 。 

企业 级 数据 仓库 是 一 个 集中 的 、 集 成 的 数据 仓库 , 它 拥 有 一 致 的 数据 版 本 ,并 可 以 对 数 
据 作 统一 控制 ,对 终端 用 户 的 决策 支持 也 是 可 用 的 。 依 赖 型 数据 集 市 的 主要 目标 就 是 提供 
一 个 简单 .高 性 能 的 数据 环境 ,用 户 群 可 以 访问 数据 集 市 , 当 需 要 其 他 数据 时 ,也 可 以 访问 企 
业 数 据 仓 库 。 另 外 , 跨 依赖 型 数据 集 市 的 宛 余 在 控制 之 内 , 且 宛 余 的 数据 是 一 致 的 ,因为 每 
一 个 数据 集 市 都 是 从 一 个 共同 的 源 数据 以 一 种 同步 的 方式 加 载 而 来 的 。 

基于 依赖 型 数据 集 市 和 操作 型 数据 存储 的 数据 仓库 体系 结构 (如 图 1.4 所 示 ) 常 常 被 称 
为 "中心 和 辐射 (hub and spoke) ”架构 ,其 中 企业 级 数据 仓库 是 中 心 , 源 数据 系统 和 数据 集 
市 在 输入 和 输出 范围 的 两 端 。 这 种 体系 结构 也 被 称 为 合作 信息 工厂 (corporate information 
factory,CIF) 。 在 支持 所 有 用 户 的 数据 需求 中 , 它 被 认为 是 一 个 全 面 的 企业 级 的 数据 视图 。 

相对 于 一 般 的 两 层 体系 结构 而 言 ,依赖 型 数据 集 市 的 优势 是 它们 可 以 处 理 各 个 用 户 群 
的 需求 ,甚至 是 探索 性 数据 仓库 的 需求 。 探 索性 数据 仓库 是 一 种 专门 的 数据 仓库 版 本 , 它 使 
用 先进 的 统计 学 数学 模型 和 可 视 化 工具 来 优化 ,通常 用 于 数据 挖掘 和 商业 智能 等 业务 模型 
应 用 的 探索 。 独 立 型 数据 集 市 的 主要 优点 是 可 以 采用 分 段 方法 来 开发 数据 仓库 。 事 实 上 ， 
分 段 方 法 也 可 以 在 基于 依赖 型 数据 集 市 和 操作 型 数据 存储 的 体系 结构 ( 即 CIF 模式 ) 中 
实现 。 

ODS 为 所 有 的 业务 数据 提供 了 一 个 集成 的 数据 源 ,同时 也 解决 了 独立 数据 集 市 架构 不 
能 下 钻 到 更 小 细节 的 问题 。ODS 实际 上 是 一 个 集成 的 ,面向 主题 的 ,可 更 新 的 、 当 前 值 的 
(但 是 可 “挥发 "的 ) ,企业 级 的 、 详 细 的 数据 库 , 也 叫 运营 数据 存储 。 
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一 个 ODS 是 一 个 典型 的 关系 数据 库 , 像 在 业务 系统 中 的 数据 库 一 样 被 规范 化 ,但 它 是 
面向 决策 支持 应 用 系统 的 ,因此 ,如 索引 等 其 他 关系 数据 库 设 计 理 念 都 是 面向 检索 大 量 数据 
的 ,而 不 是 面向 事务 处 理 或 者 查询 个 别 记录 (例如 ,一 个 客户 的 预订 ) 的 情况 。 因 为 ODS 有 
易 变 的 、 当 前 的 数据 ,在 ODS 下 的 相同 查询 在 不 同 的 时 间 很 有 可 能 会 产生 不 同 的 结果 ,这 也 
称 为 ODS 可 “挥发 性 ”。 一 个 ODS 一 般 不 包括 历史 数据 ,而 EDW 则 保存 了 企业 或 事业 组 
织 状态 的 历史 快照 。 一 个 ODS 可 能 来 自 于 一 个 ERP 应 用 数据 库 , 也 可 能 是 来 自 其 他 业务 
数据 库 , 因 此 ,ODS 通常 是 区 别 于 ERP 数据 库 的 。ODS 同样 作为 分 段 传输 区 域 .为 将 数据 
加 载 到 EDW 提供 服务 。ODS 可 能 立即 接收 数据 或 者 有 一 定 的 延迟 ,无 论 哪 一 种 情况 对 它 
的 决策 支持 需求 都 是 可 行 的 和 可 接受 的 。 

ODS 存储 的 逻辑 结构 是 企 事业 组 织 范 围 内 所 有 相关 业务 系统 的 数据 以 全 面 .统一 的 关 
系 型 实体 来 体现 的 ; ODS 中 的 数据 是 基于 分 析 主 题 进行 组 织 , 而 不 是 基于 业务 系统 的 功能 
进行 组 织 ; ODS 只 是 存储 了 当前 的 数据 且 数 据 是 “挥发 性 ”的 ,因此 其 数据 的 刷新 很 快 ,过 
期 的 数据 将 要 被 挥发 掉 。 因 此 ,ODS 的 存储 量 取决 于 业务 接口 数据 的 抽取 与 刷新 频率 , 取 
决 于 企业 的 服务 客户 的 数量 。 

从 ODS 的 作用 和 实现 来 说 .ODS 将 各 个 孤立 业务 系统 的 运营 数据 集成 起 来 ,实现 企业 
的 统一 数据 视图 ,同时 也 实现 了 ODS 的 数据 共享 

ODS 扮演 的 是 用 于 数据 稽核 与 交互 的 角色 . 它 反 映 了 在 某 一 个 时 间 切 片 瞬间 。 数 据 仓 
库 系 统 和 外 围 业 务 系统 相互 交换 数据 的 集合 .可 用 于 数据 仓库 及 其 分 析 系统 与 外 围 业 务 系 
统 之 间 关 键 数据 的 一 致 性 校 验 . 以 及 分 析 系 统 对 外 围 业 务 系统 的 决策 支持 数据 的 反馈 (如 以 
客户 扩展 属性 为 主体 的 详细 资料 等 反馈 信息 ) 。 

ODS 数据 稽核 功能 是 根据 ODS 参与 工作 的 实际 情况 建立 相应 的 ODS, 并 控制 其 权限 。 
ODS 数据 稽核 主要 涵盖 下 面 的 内 容 : 界定 关键 数据 移 核 的 项 别 与 内 容 、 获 取 数 据 稽核 所 需 
数据 .稽核 所 需 数据 完整 性 数据 重 核 报告 的 存储 和 稽核 数据 的 更 正 等 过 程 。 

ODS 数据 交互 的 价值 体现 在 数据 仓库 及 其 分 析 系 统 的 高 度 综合 数据 向 外 围 业务 系统 
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的 回流 。 如 果 从 安全 上 考虑 ,回流 数据 的 格式 可 以 采用 文本 的 方式 ,用 户 只 需 登 录 到 分 析 系 
统 ,进入 ODS 数据 交互 应 用 ,下 载 文 本 即 可 。ODS 数据 交互 程序 会 自动 在 指定 周期 ,把 预 
定义 的 内 容 上 传 到 指定 路 径 。 但 如 果 从 实现 的 方便 ,快捷 .可 维护 性 考虑 ,可 以 采用 数据 库 
方式 , 即 外 围 业务 系统 与 分 析 系 统 之 间 相 互 约定 好 数据 格式 ,由 外 围 系统 连接 到 分 析 系 统 
ODS 数据 库 , 直 接 把 ODS 的 高 度 综合 数据 导入 到 自己 的 数据 库 系统 ; 也 可 以 选择 由 ODS 
数据 交互 调度 模块 自动 在 指定 周期 ,把 预定 义 的 内 容 通 过 事先 建立 的 数据 库 连 接 ,直接 导 入 
到 外 围 数据 库 。 


144 基于 逻辑 型 数据 集 市 和 实时 数据 仓库 的 体系 结构 


逻辑 型 数据 集 市 (logical data mart) 和 实时 数据 仓库 体系 结构 实际 上 只 用 于 一 些 特定 
环境 的 数据 仓库 系统 ,或 使 用 一 些 高 性 能 的 数据 仓库 技术 时 ,例如 NCR Teradata 系统 。 这 
种 体系 结构 具有 如 下 特征 。 

(1) 逻辑 数据 集 市 并 不 是 物理 上 分 离 的 数据 库 ,而 是 在 同一 个 物理 数据 库 里 的 、 稍 微 有 
些 不 规范 的 关系 数据 仓库 的 不 同 关系 视图 。 

(2) 数据 被 放 到 数据 仓库 而 不 是 分 离 的 分 段 传输 区 域 中 ,利用 数据 仓库 技术 的 高 性 能 
计算 能 力 来 执行 清洗 和 转换 步 又。 

(3) 新 的 数据 集 市 可 以 非常 快 地 创建 ,因为 不 需要 创建 或 获得 物理 数据 库 或 数据 库 技 
术 , 且 不 需要 书写 加 载 程序 。 

(4) 数据 集 市 总 是 最 新 的 ,因为 涉及 到 某 个 视图 时 ,视图 中 的 数据 将 被 建立 ,如 果 用 户 
有 一 系列 的 查询 和 分 析 来 清理 数据 集 市 中 相同 的 实例 ,视图 可 以 被 物化 。 

图 1.5 中 的 实时 数据 仓库 (real time data warehouse ) 也 叫 动态 数据 仓库 (Cactive data 
warehouse) , 它 意 味 着 源 数据 系统 .决策 支持 服务 和 数据 仓库 之 间 以 一 个 接近 实时 的 速度 交 
换 数据 和 业务 规则 。 事 实 上 ,有 许多 的 分 析 业 务 需要 快速 响应 系统 当前 的 、 全 面 的 组 织 状况 
和 描述 。 例 如 ,一 些 分 析 型 CRM 系统 (特别 是 Call Center) 的 回答 问题 和 日 志 记 录 问 题 , 会 
需要 客户 最 近 的 销售 信息 、 欠 账 和 付款 事务 信息 维护 活动 和 订单 的 有 关 信 息 描述 。 一 个 重 
要 事件 ,如 输入 一 个 新 的 产品 订单 ,可 以 立即 对 客户 和 客户 所 在 组 织 的 最 新 状况 有 一 个 全 面 
了 解 。 一 个 有 关 客 户 的 实时 数据 仓库 分 析 系 统 可 能 的 需求 目标 包括 : 

(1) 在 一 个 业务 事件 (发 生 什么 ) 中 获取 客户 数据 ,减少 从 事件 到 行为 的 延迟 。 

(2) 分 析 客 户 行为 (为 什么 会 发 生 ) 并 且 预 言 客户 的 可 能 行为 及 其 反应 (将 发 生 什么 ) 。 

(3) 制订 规则 来 优化 客户 的 交互 ,规则 包括 适当 的 反应 和 达到 最 好 结果 的 途径 。 

(4) 为 了 使 期 望 的 结果 发 生 :在 适当 的 时 间 点 对 客户 立即 采取 行动 , 当 确定 了 决策 规则 
时 ,适当 的 行动 时 间 点 是 基于 对 客户 的 最 佳 反应 。 

实时 数据 仓库 系统 还 包括 如 下 一 些 应 用 领域 : 

(1) 运输 。 及 时 的 运输 是 基于 最 新 的 存货 水 平 。 

(2) 电子 商务 。 例 如 在 用 户 下 线 之 前 ,一 个 取消 的 购物 车 能 引起 电子 邮件 信息 的 增加 。 

(3) 信用 卡 交易 的 欺骗 检测 。 一 个 特殊 的 交易 类 型 可 能 会 使 销售 员 或 在 线 购物 车 程序 
警惕 以 采取 额外 的 预防 措施 。 

这 样 的 应 用 常 被 在 线 用 户 一 天 24 小 时 一 周 7 天 ,一 年 365 天 访问 ,用 户 可 能 是 雇员 、 
客户 或 商业 伙伴 。 
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随 着 高 性 能 计算 机 和 实时 数据 仓库 技术 的 出 现 ,ODS 和 EDW 在 这 种 情况 下 事实 上 是 


一 个 系统 ,这 样 在 解决 一 系列 问题 的 过 程 中 ,对 用 户 来 说 上 钼 和 下 外 都 比较 容易 ,如 图 


所 示 。 


1.5 


面向 运营 决策 的 新 业务 规则 


接近 实时 地 


加 


数据 展示 : 


查询 工具 

报表 生成 器 
终端 用 户 应 用 (如 
CRM 、SRM 等 ) 
建 模 与 挖掘 工具 
可 视 化 工具 


二 


轩 取 > 数据 存储 ， 
一 关系 型 的 
快速 的 ODS 
清 抽取 处 理 过 程 
| 急 
数据 | 汪 和 
人 
内 部 的 一 直到 人 
标准 化 
© - 致 维 
| 转换 
s mr 装载 到 仓库 
外 部 的 
源 数据 系统 


数据 集结 区 与 数据 及 元 数据 存储 区 


终端 用 户 表示 工具 


图 1.5 逻辑 型 数据 集 市 及 实时 数据 仓库 体系 结构 示意 图 


逻辑 或 物理 的 数据 集 市 和 数据 仓库 在 数据 仓库 技术 环境 中 起 着 不 同 的 作用 ,其 主要 区 
别 如 表 1.2 所 示 。 虽 然 数据 集 市 的 范围 有 限制 ,但 数据 集 市 可 能 也 并 不 小 ,因此 ,可 扩展 技 
术 对 数据 仓库 系统 来 说 是 至 关 重 要 的 。 当 用 户 需 要 在 几 个 物理 上 分 离 的 数据 集 市 上 集成 数 
据 时 (如 果 这 是 可 能 的 ) ,负载 和 代价 就 会 分 担 给 用 户 。 因 此 ,逻辑 型 数据 集 市 和 实时 数据 仓 
库 的 体系 结构 不 失 为 建立 数据 仓库 的 一 种 较 佳 的 有 效 方法 ,特别 是 在 硬件 性 能 不 断 提高 ,成 


本 不 断 下 降 的 条 件 下 。 
表 1.2 数据 仓库 和 数据 集 市 的 比较 表 
对 比 内容 数据 仓库 数据 集 市 
应 用 独立 特定 的 DSS 应 用 
范围 集中 式 , 企 业 级 (可 能 ) 用 户 域 的 离散 化 
规划 的 可 能 是 临时 组 织 的 (无 规划 ) 
数据 历史 的 .详细 的 和 概括 的 一 些 历史 的 、 详 细 的 和 概括 的 
轻微 不 规范 化 高 度 不 规范 化 
主题 多 个 主题 用 户 关心 的 某 一 个 中 心 主题 
源 多 个 内 部 和 外 部 源 很 少 的 内 部 和 外 部 源 
灵活 的 严格 的 
面向 数据 面向 工程 
其 他 特征 长 期 短期 
大 开始 小 .逐渐 变 大 
单一 的 复杂 结构 多 , 半 复 杂 性 结构 、 合 并 复杂 
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1.5 数据 仓库 的 产生 发展 与 未 来 


15.1 数据 仓库 的 产生 


计算 机 系统 的 功能 从 最 初 的 数值 计算 逐渐 扩展 到 对 各 类 数据 的 管理 。 最 初 的 数据 管理 
形式 主要 是 文件 系统 ,少量 的 以 数据 片断 之 间 增 加 一 些 关 联 和 语义 而 构成 层次 型 或 网 状 数 
据 库 , 但 数据 的 访问 必须 依赖 于 特定 的 程序 ,数据 的 存 取 方式 是 固定 的 、 死 板 的。 到 了 1969 
年 ,E. F. Codd 博士 发 表 了 他 著名 的 关系 数据 模型 的 论文 。 此 后 ,关系 数据 库 的 出 现 开创 了 
数据 管理 的 一 个 新 时 代 。 

随 着 大 量 新 技术 、 新 思路 涌现 出 来 并 被 用 于 关系 数据 库 系统 的 开发 和 实现 ,如 客户 端 / 
服务 器 体系 结构 ,存储 过 程 、 多 线程 并 发 内 核 . 异 步 I/O 和 代价 优化 技术 等 ,关系 数据 库 系 
统 的 处 理 能 力 毫 不 逊色 于 那些 昂贵 的 传统 封闭 的 遗留 数据 库 系统 。 而 关系 数据 库 在 访问 逻 
辑 和 应 用 上 所 带 来 的 好 处 则 远 远 不 止 这 些 ,SQL 的 使 用 已 成 为 一 个 不 可 阻挡 的 潮流 ,加 上 
计算 机 硬件 的 处 理 能 力 呈 数量 级 的 递增 ,关系 数据 库 最 终 成 为 联机 事务 处 理 系 统 的 主 衬 。 

从 20 世纪 80 年 代 初 起 直到 90 年 代 初 ,联机 事务 处 理 一 直 是 关系 数据 库 应 用 的 主流 。 
然而 ,应 用 需求 在 不 断 地 变化 , 当 联 机 事务 处 理 系 统 应 用 到 一 定 阶 段 时 ,企业 家 们 便 发 现 单 
靠 拥 有 联机 事务 处 理 系 统 已 经 不 足以 获得 市 场 竞争 的 优势 ,他 们 需要 对 其 自身 业务 的 运作 
以 及 整个 市 场 相关 行业 的 态势 进行 分 析 , 进 而 做 出 有 利 的 决策 。 这 种 决策 需要 对 大 量 的 业 
务 数据 包括 历史 业务 数据 进行 分 析 才 能 得 到 。 把 这 种 基于 业务 数据 的 决策 分 析 称 为 联机 分 
析 处 理 。 如 果 说 传统 联机 事务 处 理 强调 的 是 更 新 数据 库 ( 向 数据 库 中 添加 信息 ), 那 么 联机 
分 析 处 理 就 是 从 数据 库 中 获取 信息 、 利 用 信息 。 因 此 ,著名 的 数据 仓库 专家 Ralph Kimball 
写 道 :“ 我 们 花 了 二 十 多 年 的 时 间 将 数据 放 入 数据 库 , 如 今 是 该 将 它们 拿 出 来 的 时 候 了 ”。 

事实 上 ,将 大 量 的 业务 数据 应 用 于 分 析 和 统计 原本 是 一 种 非常 简单 和 自然 的 想法 。 但 
在 实际 的 操作 中 ,人 们 却 发 现 要 获得 有 用 的 信息 并 非 如 想象 得 那么 容易 。 

(1) 所 有 联机 事务 处 理 强调 的 是 密集 的 数据 更 新 处 理性 能 和 系统 的 可 靠 性 ,并 不 太 关 
心 数据 查询 的 方便 与 快捷 。 

(2) 业务 数据 往往 被 存放 于 分 散 的 异 构 环 境 中 ,不 易 统 一 查询 访问 ,而 且 还 有 大 量 的 历 
史 数 据 处 于 脱 机 状态 ,形同虚设 。 

(3) 业务 数据 的 数据 库 模 式 针 对 事务 处 理 系 统 而 设计 ,数据 的 格式 和 描述 方式 并 不 适 
合 非 计 算 机 专业 人 员 进 行业 务 上 的 分 析 和 统计 。 

因此 有 人 感叹 : 联机 事务 处 理 系统 刚 上 线 时 ,查询 不 到 数据 是 因为 数据 太 少 了 ,而 几 十 
年 后 查询 不 到 有 关 数 据 是 因为 数据 太 多 了 。 针 对 这 一 问题 ,人 们 设想 专门 为 业务 数据 的 统 
计 分 析 建 立 一 个 数据 中 心 , 它 的 数据 从 联机 事务 处 理 系统 中 来 ` 从 异 构 的 外 部 数据 源 来 或 从 
脱 机 的 历史 业务 数据 中 来 ,这 个 数据 中 心 也 是 一 个 联机 系统 , 它 专门 为 分 析 统 计 和 决策 支持 
应 用 服务 ,通过 它 可 获取 决策 支持 和 联机 分 析 应 用 所 需要 的 一 切 数据 。 这 个 数据 中 心 就 叫 
做 数据 仓库 。 简 单 地 说 ,数据 仓库 就 是 一 个 作为 决策 支持 和 联机 分 析 应 用 系统 数据 源 的 结 
构 化 数据 环境 ,数据 仓库 要 研究 和 解决 的 就 是 从 数据 库 中 获取 信息 的 问题 。 

那么 数据 仓库 与 数据 库 又 是 什么 关系 呢 ? 回想 当初 ,人 们 固守 封闭 式 数据 库 系统 是 出 
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于 对 事务 处 理 的 偏爱 ,人 们 当时 选择 关系 数据 库 的 一 个 理由 之 一 就 是 为 了 方便 地 获取 信息 。 
由 此 看 来 ,数据 仓库 所 要 提供 的 正 是 当年 关系 数据 库 所 倡导 的 。 由 于 关系 数据 库 系 统 在 联 
机 事务 处 理应 用 中 获得 的 巨大 成 功 ,使 得 人 们 已 不 知 不 觉 地 将 它 划 归 到 事务 处 理 的 范畴 。 
其 实 关系 数据 库 系 统 也 是 数据 仓库 的 核心 数据 环境 ,只 是 数据 仓库 对 关系 数据 库 的 联机 分 
析 能 力 提出 了 更 高 的 要 求 ,需要 对 关系 型 数据 库 系统 作 专门 的 改进 。 

以 辨证 的 眼光 来 看 ,数据 仓库 的 兴起 实际 上 是 数据 管理 的 一 种 回归 ,是 螺旋 式 的 上 升 。 
今天 基于 OLTP 的 关系 数据 库 就 好 比 当年 的 层次 数据 库 和 网 型 数据 库 , 它 们 是 面向 事务 处 
理 的 ; 今天 的 数据 仓库 就 好 比 是 当年 的 关系 数据 库 , 它 是 针对 联机 分 析 应 用 的 。 所 不 同 的 
是 ,由 于 技术 的 专业 化 分 工 , 今 天 的 数据 仓库 技术 完全 专注 于 联机 分 析 处 理 领 域 ,不 再 用 于 
事务 处 理应 用 。 

数据 仓库 概念 一 经 出 现 , 就 首先 被 应 用 于 金融 、 电 信和 保险 等 主要 传统 数据 处 理 密 集 型 
行业 。 国 外 许多 大 型 的 数据 仓库 在 1996 一 1997 年 间 建 立 。 什 么 样 的 行业 最 需要 建立 数据 
仓库 ,有 如 下 两 个 基本 条 件 。 

(1) 该 行业 有 较为 成 熟 的 联机 事务 处 理 系统 , 它 为 数据 仓库 提供 客观 条 件 。 

(2) 该 行业 面临 市 场 竞争 的 压力 , 它 为 数据 仓库 的 建立 提供 外 在 动力 。 


152 数据 仓库 的 发 展 


最 初 的 数据 仓库 系统 可 能 只 为 企业 内 部 高 层 提 供 某 些 方面 的 战略 决策 数据 ,如 市 场 营 
销 、 战 略 策划 和 财务 等 方面 的 分 析 数 据 ,数据 仓库 提供 的 信息 极 大 地 改善 了 这 些 部 门 的 决策 
质量 。 然 而 ,在 当今 竞争 异常 激烈 的 商业 环境 中 ,优秀 的 战略 仅仅 是 成 功 的 诸多 要 素 之 一 。 
若 不 能 付 诸 有 效 的 实施 ,任何 战略 都 将 是 一 纸 空 文 。 新 一 代 的 数据 仓库 应 用 不 仅 改善 了 企 
业 战 略 的 形成 ,更 重要 的 是 加 强 了 企业 战略 的 执行 决策 能 力 。 因 此 ,从 应 用 的 角度 来 看 , 数 
据 仓 库 的 发 展演 变 可 以 归纳 为 以 下 5 个 阶段 。 


1. 以 报表 为 主 


最 初 的 数据 仓库 主要 用 于 快速 产生 企业 内 部 某 些 部 门 的 报表 。 数 据 仓 库 把 组 织 内 不 同 
来 源 的 信息 集成 到 一 个 单一 的 数据 仓库 中 ,这 样 可 以 为 企业 跨 职能 或 跨 产品 的 决策 提供 重 
要 参考 信息 。 在 大 多 数 情况 下 ,人们 事先 已 对 报表 中 涉及 的 问题 有 所 了 解 。 因 此 ,数据库 的 
结构 可 根据 问题 的 要 求 进行 优化 ,即使 数据 查询 人 员 要 求 访问 的 信息 量 极其 巨大 ,但 处 理 这 
些 数据 的 效率 仍然 可 以 很 高 。 

构建 这 一 阶段 的 数据 仓库 所 面临 的 最 大 挑战 是 数据 集成 。 传 统 的 计算 环境 经 常 有 上 百 
个 数据 源 ,每 一 数据 源 都 有 独特 的 定义 标准 和 基本 的 实施 技术 。 要 对 这 些 放 在 不 同 生 产 系 
统 之 中 不 具备 一 致 性 的 数据 进行 清洗 ,建立 一 致 性 的 集成 数据 库 是 非常 具有 挑战 性 的 。 本 
阶段 所 建立 并 优化 过 的 集成 信息 一 方面 为 决策 者 提供 辅助 决策 的 报表 , 男 一 方面 也 为 以 后 
数据 仓库 的 发 展商 定 了 基础 。 


2. 以 分 析 为 主 


在 数据 仓库 应 用 的 第 2 阶段 ,决策 者 关心 的 重点 发 生 了 转移 , 即 从 “发 生 了 什么 ”转向 
“为 什么 会 发 生 ”。 分 析 活 动 的 目的 就 是 了 解 报表 数据 的 含义 ,需要 对 更 详细 的 数据 进行 各 
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种 角度 的 分 析 。 本 阶段 的 数据 仓库 对 要 分 析 的 问题 可 能 事先 一 无 所 知 ,采用 的 方法 也 可 能 
是 随机 分 析 方 法 。 其 中 的 性 能 管理 依赖 于 关系 型 数据 库 管理 系统 (relational database 
management system, RDBMS) 的 先进 优化 功能 ,因为 这 与 纯 报 表 环 境 不 同 , 信 息 查 询 的 结 
构 关系 是 无 法 预知 的 。 

在 本 阶段 的 数据 仓库 应 用 中 ,由 于 信息 库 的 应 用 具有 很 高 的 交互 性 ,所 以 性 能 问题 非常 
重要 。 报 表 一 般 是 根据 业务 日 程 安排 定期 提供 的 ,而 随机 分 析 基 本 上 是 在 交互 环境 中 反复 
提出 并 不 断 优化 问题 的 操作 。 业 务 用 户 希 望 通过 图 形 用 户 界面 (graphics user interface， 
GUD 直接 访问 数据 仓库 ,不 希望 有 编程 人 员 作 为 中 介 。 支 持 数 据 仓库 的 并 发 查询 及 大 批量 
用 户 , 这 是 本 阶段 应 用 的 典型 特征 。 

业务 用 户 往 往 没 有 耐心 ,所 以 必须 建立 联机 分 析 人 处理 环境 ,向 下 挖掘 的 反应 时 间 以 秒 或 
分 钟 来 计算 。 采 用 索引 和 复杂 的 表 连 接 技术 ,使 得 数据 库 优 化 器 可 以 找到 高 效率 的 访问 路 
径 。 所 以 ,优化 器 技术 对 于 在 可 接受 的 响应 时 间 内 灵活 地 存 取信 息 至 关 重 要 。 


3. 以 预测 模型 为 主 


当 一 个 公司 决策 过 程 得 到 量化 以 后 ,对 经 营业 务 的 动态 情况 以 及 这 种 情况 为 什么 发 生 
都 已 有 所 体验 时 ,往往 就 开始 思索 将 信息 用 于 预测 了 。 很 明显 ,掌握 企业 即将 发 生 的 动向 意 
味 着 更 为 积极 地 管理 和 实施 公司 战略 。 数 据 仓 库 发 展 的 第 3 阶段 就 是 提供 数据 采集 工具 ， 
利用 历史 资料 创建 预测 模型 。 

利用 预测 模型 进行 高 级 分 析 的 最 终 用 户 通 常 为 数 不 多 ,但 建 模 及 评测 的 工作 量 极 大 。 
例如 ,一 个 建 模 可 能 需要 用 数 百 种 复杂 方法 度量 几 十 万 个 观察 数据 ,以 形成 适合 于 某 特定 商 
业 目 标的 预测 算法 ,其 评测 也 常常 需要 用 到 大 量 ( 百 万 级 ) 的 观察 数据 。 为 了 得 到 所 需 的 预 
测 特性 ,高 级 数据 分 析 通 常 要 应 用 复杂 的 数学 函数 (如 对 数 、 指 数 、 三 角 函 数 和 复杂 的 统计 函 
数 )。 对 算法 的 预测 效果 而 言 ,获取 详细 数据 是 非常 重要 的 。 一 些 工具 (如 SAS 等 ) 为 开发 
复杂 模型 提供 了 框架 ,不 过 它 要 求 直 接 访 问 数据 仓库 关系 结构 中 所 存储 的 信息 。 面 对 此 类 
应 用 ,必须 考虑 数据 仓库 的 能 力 。 少 数 用 户 可 能 在 高 峰 期 轻易 地 消耗 掉 数 据 仓库 平 台 
50% 或 者 更 多 的 资源 。 资 源 消耗 之 所 以 这 样 巨大 ,原因 在 于 数据 访问 过 程 复杂 ,而 且 数 据 处 
理 量 很 大 。 


4. 以 营运 导向 为 主 


数据 仓库 演变 的 第 4 阶段 是 要 实现 数据 仓库 的 战术 性 决策 功能 ,开始 关注 其 动态 性 。 
数据 仓库 发 展 的 前 3 个 阶段 都 以 支持 企业 内 部 战略 性 决策 为 重点 ,本 阶段 则 开始 有 侧重 地 
支持 一 些 战 术 性 决策 ,如 分 析 性 CRM 系统 ,智能 呼叫 中 心 等 数据 仓库 应 用 。 数 据 仓库 对 战 
略 性 决策 的 支持 是 为 企业 长 期 决策 提供 必需 的 信息 ,包括 市 场 细 分 .产品 及 其 类 别管 理 战 
略 、 获 利 性 分 析 与 预测 等 。 

战术 性 决策 支持 的 重点 则 可 能 在 企业 外 部 ,为 执行 企业 战略 的 员工 提供 支持 。 所 谓 数 
据 仓 库 的 “营运 导向 ”, 是 指 为 现场 即时 决策 提供 信息 ,例如 及 时 库存 补给 、 包 囊 发 运 的 日 程 
安排 和 路 径 选择 等 。 许 多 零售 商都 倾向 于 由 供 货 方 管理 库存 ,自己 则 用 一 条 零售 数据 链 来 
连接 众多 作为 伙伴 的 供 货 厂 商 .其 目的 是 通过 更 有 效 的 供 货 链 管理 来 降低 库存 成 本 。 为 了 
使 这 种 合作 获得 成 功 ,就 必须 向 供 货 商 提供 有 关 销 售 、 促 销 推广 和 库 内 存货 等 详细 信息 ,以 
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便 他 们 能 根据 每 个 商店 和 每 个 单 品 对 库存 的 要 求 建立 并 实施 有 效 的 生产 和 交 货 计划 。 为 了 
保证 信息 确实 有 价值 ,必须 能 够 随时 刷新 信息 ,并 对 查询 做 出 非常 快 的 响应 。 以 货运 为 例 ， 
统筹 安排 货运 车 辆 和 运输 路 线 ,这 需要 进行 非常 复杂 的 决策 。 常 常 需要 将 一 辆 卡车 上 的 部 
分 货物 转移 到 另 一 辆 车 上 , 即 重新 配 载 , 以 最 高 或 次 高 的 整体 运输 效率 将 所 有 货物 送 抵 各 自 
的 目的 地 。 当 某 些 卡车 晚点 时 ,就 要 做 出 艰难 的 决定 : 是 让 后 继 的 运输 车 等 待 迟到 的 货物 ， 
还 是 让 其 按时 出 发 。 如 果 后 继 车 辆 按时 出 发 而 未 等 待 迟 到 的 包 右 ,那么 迟到 包 右 的 服务 等 
级 就 会 大 打折 扣 。 反 过 来 说 ,等 待 迟 到 的 包 右 则 将 损害 在 后 继 运输 车 上 其 他 待 运 包 右 的 服 
务 等 级 。 运 输 车 究竟 等 待 多 长 时 间 ,取决 于 需 印 装 到 该 车 辆 的 所 有 延迟 货物 的 服务 等 级 和 
已 经 装载 到 该 车 辆 的 货物 的 服务 等 级 。 很 显然 ,第 二 天 就 应 该 抵达 目的 地 的 货物 和 数 天 后 
才 需 抵达 目的 地 的 货物 ,两 者 的 服务 等 级 及 其 实现 难度 是 大 不 相同 的 。 此 外 ,发 货 方 和 收 货 
方 也 是 决策 考虑 的 重要 因素 。 对 企业 盘 利 十 分 重要 的 客户 ,其 货物 的 服务 等 级 应 该 相应 提 
高 ,以 免 因 货物 迟到 破坏 双方 关系 。 延 误 货 物 的 运输 路 线 、 天 气 条 件 和 许多 其 他 的 因素 也 应 
予以 考虑 。 能 够 在 这 种 情况 下 作出 明智 的 战术 性 决策 ,相当 于 解决 了 一 个 非常 复杂 的 优化 
问题 。 

要 实现 数据 仓库 的 战术 性 决策 功能 ,作为 决策 基础 的 信息 就 应 该 保持 实时 更 新 或 接近 
实时 更 新 。 这 就 是 说 ,为 了 使 数据 仓库 的 决策 功能 真正 服务 于 日 常 业务 ,就 必须 持续 不 断 地 
获取 数据 并 将 其 填充 到 数据 仓库 中 。 战 略 决策 可 使 用 按 月 或 周 更 新 的 数据 ,但 以 这 种 频率 
更 新 的 数据 是 无 法 支持 战术 决策 的 。 作 业 现 场 的 战术 决策 需要 查询 响应 时 间 以 秒 为 单位 来 
衡量 。 


5. 以 实时 数据 仓库 .自动 决策 应 用 为 主 


在 这 个 阶段 ,实时 数据 仓库 在 决策 支持 领域 中 的 角色 越 重要 ,企业 实现 决策 自动 化 的 积 
极 性 就 越 高 。 在 人 工 操作 效果 不 明显 时 ,为 了 寻求 决策 的 有 效 性 和 连续 性 ,企业 就 会 趋向 于 
采取 自动 决策 。 特 别 是 在 电子 商务 模式 中 , 面 对 客 户 与 网 站 的 互动 ,企业 只 能 选择 自动 决 
策 。 例 如 ,网 站 或 ATM 系统 中 所 采用 的 交互 式 客户 关系 管理 (customer relationship 
management,CRM) 是 一 个 产品 供应 .定价 和 内 容 发 送 各 方面 都 十 分 个 性 化 的 客户 关系 优 
化 决策 过 程 。 这 一 复杂 的 过 程 在 无 人 介入 的 情况 下 自动 发 生 , 响 应 时 间 以 秒 或 毫秒 计 。 

随 着 技术 的 进步 , 越 来 越 多 的 决策 由 事件 触发 .并 自动 完成 。 例 如 ,零售 业 正 逐步 流行 
的 电子 货架 标签 技术 。 电 子 标签 可 以 通过 计算 机 远程 控制 来 改变 标价 ,无 须 任 何 手工 操作 。 
电子 货架 标签 技术 结合 实时 数据 仓库 ,可 以 帮助 企业 按照 自己 的 意愿 实现 价格 管理 自动 化 ; 
对 于 库存 过 大 的 季节 性 货物 ,这 两 项 技术 会 自动 实施 降价 策略 .以便 以 最 低 的 边际 损耗 售 出 
最 多 的 存货 。 降 价 决策 在 手工 定价 时 代 是 一 种 非常 复杂 的 操作 ,往往 代价 高 昂 , 超 过 了 企业 
的 承受 能 力 。 带 有 促销 信息 和 动态 定价 功能 的 电子 货架 标签 .为 价格 管理 带 来 了 一 个 全 新 
的 世界 。 而 且 , 实 时 数据 仓库 还 允许 用 户 采 用 事件 触发 和 复杂 决策 支持 技术 ,以 最 佳 方案 逐 
件 货品 . 逐 家 店铺 作出 决策 。 在 CRM 环境 中 .利用 实时 数据 仓库 ,根据 每 一 位 客户 的 情况 
做 出 决策 都 是 可 能 的 。 

激烈 的 竞争 形势 和 日 新 月 异 的 技术 革新 推动 了 决策 技术 的 进步 。 实 时 数据 仓库 可 以 为 
整个 企业 的 各 个 层次 提供 决策 信息 和 决策 支持 .而 不 只 限于 战略 决策 过 程 。 然 而 ,战术 决策 
支持 并 不 能 代替 战略 决策 支持 ,也 就 是 说 ,实时 数据 仓库 需要 同时 支持 这 两 种 决策 方式 。 事 
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实 上 ,在 第 5 阶段 ,数据 仓库 的 营运 导向 应 用 、 实 时 数据 仓库 的 事件 触发 自动 决策 支持 以 及 
为 传统 数据 仓库 分 析 而 特别 开发 的 战略 决策 支持 这 三 者 是 并 存 的 。 

总 之 ,数据 仓库 的 应 用 是 一 个 逐渐 演进 的 过 程 ,从 第 1 阶段 发 展 到 第 5 阶段 是 水 到 渠 成 
的 事 , 是 系统 不 断 完善 和 应 用 不 断 扩 展 的 过 程 。 在 数据 仓库 建立 之 初 ,用 户 首先 往往 需要 基 
于 整合 数据 源 和 调和 数据 的 传统 数据 仓库 应 用 , 当 数 据 仓库 系统 建设 到 具有 战略 决策 支持 
功能 时 ,必然 会 提出 战术 性 决策 的 更 高 要 求 。 再 进一步 , 当 实 时 数据 仓库 能 用 于 整个 企业 
(或 事业 单位 ) 时 ,其 商业 价值 会 大 大 增加 。 向 整个 企业 中 成 千 上 万 的 决策 者 提供 信息 ,甚至 
通过 有 关 应 用 界面 (如 CRM) ,让 客户 也 可 参与 决策 ,这 将 给 企业 的 业务 发 展 带 来 巨大 的 优 
势 。 因 此 ,一 个 可 扩展 、 高 性 能 、 高 可 用 性 且 具 有 快速 数据 更 新 能 力 的 实时 数据 仓库 系统 是 
实现 企业 决策 飞跃 的 关键 。 


15.3 数据 仓库 的 未 来 


数据 仓库 是 数据 管理 技术 和 市 场 上 一 个 方兴未艾 的 领域 ,有 着 良好 的 发 展 前 景 。 在 此 ， 
将 从 技术 、 应 用 和 市 场 等 几 个 方面 探讨 数据 仓库 的 未 来 发 展 。 

数据 仓库 技术 的 发 展 包括 数据 抽取 存储 管理 ,数据 表现 和 方法 论 等 方面 。 在 数据 抽取 
方面 ,未 来 的 技术 发 展 将 集中 在 系统 集成 化 方面 。 它 将 互 连 、 转 换 、 复 制 . 调 度 ,监控 纳入 标 
准 化 的 统一 管理 ,以 适应 数据 仓库 本 身 或 数据 源 可 能 的 变化 ,使 系统 更 便于 管理 和 维护 。 在 
数据 管理 方面 ,未 来 的 发 展 将 使 数据 库 厂商 明确 推出 数据 仓库 引擎 ,作为 数据 仓库 服务 器 产 
品 与 数据 库 服务 器 并 驾 齐 驱 。 在 这 一 方面 , 带 有 决策 支持 扩展 的 并 行 关系 数据 库 将 最 具 发 
展 潜力 。 在 数据 表现 方面 ,统计 分 析 的 算法 和 功能 将 普遍 集成 到 联机 分 析 产 品 中 ,并 与 
Internet/ Web 技术 紧密 结合 。 按 行业 应 用 特征 细 化 的 数据 仓库 用 户 前 端 软件 将 成 为 产品 ， 
作为 数据 仓库 解决 方案 的 一 部 分 。 数 据 仓 库 实 现 过 程 的 方法 论 将 更 加 普及 ,将 成 为 数据 库 
设计 的 一 个 明确 分 支 , 成 为 管理 信息 系统 设计 的 必 备 。 

计算 机 应 用 技术 发 展 的 数据 仓库 倾向 是 数据 仓库 发 展 的 推动 力 。 传 统 的 联机 事务 处 理 
系统 往往 事先 并 不 考虑 数据 仓库 的 建设 ,但 实际 应 用 对 数据 仓库 所 能 提供 的 功能 却 早 有 需 
求 。 因 此 ,许多 事务 处 理 系 统 近 年 来 陷入 困境 : 在 现 有 系统 上 增加 有 限 的 联机 分 析 功 能 , 包 
括 复杂 的 报表 和 数据 汇总 操作 等 ,可 这 有 时 会 严重 影响 事务 处 理 联机 性 能 ,而 且 统 计 分 析 功 
能 又 因 系 统 结构 上 的 种 种 限制 而 不 能 很 好 地 实现 。 因 此 . 随 着 应 用 技术 朝 着 更 加 细 化 、 更 加 
专业 的 方向 发 展 ,在 新 一 代 的 应 用 系统 中 ,数据 仓库 在 一 开始 便 被 纳入 系统 设计 的 考虑 ,在 
数据 管理 上 ,联机 事务 处 理 和 数据 仓库 应 用 相对 独立 ,使 联机 事务 处 理 系 统 本 身 更 加 简洁 高 
效 , 同 时 分 析 统计 应 用 也 更 为 便利 。 面 向 行业 的 统计 分 析 学 向 更 为 普遍 的 应 用 发 展 , 并 集成 
到 数据 仓库 解决 方案 中 。 

在 市 场 方 面 ,将 从 厂商 和 用 户 两 个 方面 看 数据 仓库 的 发 展 。 对 于 提供 数据 仓库 产品 和 
解决 方案 的 厂商 来 说 ,严酷 的 市 场 竞 争 是 永恒 的 主题 。 未 来 的 发 展 将 是 不 提供 完整 解决 方 
案 的 厂商 可 能 被 其 他 公司 收购 ,例如 从 事 数 据 抽取 等 提供 专用 工具 的 软件 公司 很 可 能 并 入 
大 型 数据 库 厂 商 而 去 构建 完整 的 解决 方案 。 能 够 持续 发 展 的 厂商 大 致 有 两 类 : 一 是 拥有 强 
大 的 数据 库 ,数据 管理 背景 的 公司 ; 二 是 专门 提供 面向 具体 行业 的 、 从 事 数据 仓库 实施 的 技 
术 咨 询 公 司 。 

从 用 户 的 角度 看 ,除了 数据 管理 的 传统 领域 (如 金融 \ 保 险 和 电信 等 行业 中 的 特定 应 用 ， 
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如 信用 分 析 、 风 险 分 析 和 欺诈 检测 等 ) 是 数据 仓库 的 主要 市 场 之 外 ,数据 仓库 的 应 用 随 着 现 
代 社 会 商业 模式 的 变革 而 进一步 普及 和 深入 。 近 年 来 ,一 场 悄 悄 的 革命 正在 改变 产品 制造 
和 提供 服务 的 方式 , 它 就 是 数字 化 定制 经 济 模式 。 在 这 个 世界 里 ,用 户 可 以 购买 一 台 根 据 自 
己 要 求 组 装 的 计算 机 一 条 根据 自己 体形 设计 的 牛仔 裤 , 一 种 根据 自己 身体 需要 而 生产 的 保 
健 药 ,一 副 与 自己 脸型 相配 的 眼镜 等 。 在 未 来 大 规模 定制 经 济 环境 下 ,数据 仓库 将 成 为 企业 
获得 竞争 优势 的 关键 武器 。 

总 之 ,数据 仓库 是 一 项 基于 数据 管理 和 数据 应 用 的 综合 性 技术 和 解决 方案 , 它 是 数据 库 
市 场 的 新 一 轮 增长 点 ,同时 也 是 未 来 企业 应 用 系统 的 重要 组 成 部 分 。 


1.6 小 结 


本 章 主要 介绍 了 数据 仓库 的 概念 特点、 构成 ,分 类 以 及 数据 挖掘 和 数据 处 理 的 基本 
概念 。 
数据 仓库 就 是 一 个 面向 主题 的 ,集成 的 、 相 对 稳定 的 ,反映 历史 变化 的 数据 集合 ,通常 用 
于 辅助 决策 支持 。 数 据 仓 库 由 数据 仓库 数据 库 、 数 据 抽取 工具 、 元 数据 、 访 问 工具 、 数 据 集 
市 .数据 仓库 管理 和 信息 发 布 系统 组 成 。 数 据 仓库 的 4 种 体系 结构 模型 , 即 两 层 体系 结构 、 
基于 独立 数据 集 市 的 体系 结构 ,基于 依赖 型 数据 集 市 和 ODS 的 体系 结构 .基于 逻辑 型 数据 
集 市 的 实时 数据 仓库 体系 结构 。 

数据 挖掘 ,就 是 从 大 量 数据 中 获取 有 效 的 .新颖 的 \ 潜 在 有 用 的 、 最 终 可 理解 的 模式 的 过 
程 。 数 据 挖掘 可 以 基于 关系 数据 库 ,数据 仓库 和 万 维 网 等 ,在 数据 仓库 中 进行 数据 挖掘 会 使 
挖掘 结果 更 具有 指导 意义 。 

数据 处 理 通常 分 成 两 大 类 : 联机 事务 处 理 (OLTP) 和 联机 分 析 处 理 (OLAP)。OLTP 
是 传统 的 操作 型 数据 库 系统 的 主要 应 用 ; OLAP 是 数据 仓库 系统 的 主要 应 用 ,支持 复杂 的 
分 析 操 作 , 侧 重 决策 支持 ,并 且 提 供 直 观 易 懂 的 查询 结果 。 

此 外 ,本 章 还 介绍 了 数据 仓库 实施 的 关键 技术 与 方法 论 ; 数据 仓库 的 产生 与 发 展 及 其 
未 来 发 展 趋势 和 常用 的 数据 仓库 产品 。 


1.7 习题 

1. 数据 仓库 就 是 一 个 \、 集 成 的 、 \ 反 映 历史 变化 的 数据 集合 。 

2. 元 数据 是 描述 数据 仓库 内 数据 的 结构 和 建立 方法 的 数据 , 它 为 访问 数据 仓库 提供 了 
一 个 信息 目录 ,根据 元 数据 用 途 的 不 同 可 将 数据 仓库 的 元 数据 分 为 和 
两 类 。 

3. 数据 处 理 通常 分 成 两 大 类 : 联机 事务 处 理 和 

4. 多 维 分 析 是 指 对 以 * 维 "形式 组 织 起 来 的 数据 (多 维 数据 集 ) 采 取 、 切 块 、 


和 旋转 等 各 种 分 析 动 作 ,以 求 剖 析 数 据 , 使 用 户 能 从 不 同 角度 .不 同 侧面 观察 数据 
仓库 中 的 数据 ,从 而 深入 理解 多 维 数据 集中 的 信息 。 
5. ROLAP 是 基于 的 OLAP 实现 ,而 MOLAP 是 基于 多 维 数据 结构 组 织 的 
OLAP 实现 。 


25 
第 1 章 ON 


6. 数据 仓库 按照 其 开发 过 程 ,其 关键 环节 包括 、 和 数据 表现 等 。 
7. 数据 仓库 系统 的 体系 结构 根据 应 用 需求 的 不 同 , 可 以 分 为 以 下 4 种 类 型 
和 
8. 操作 型 数据 存储 实际 上 是 一 个 集成 的 .面向 主题 的 、 (但 是 可 “ 挥 


发 "的 ) ,企业 级 的 ,详细 的 数据 库 , 也 叫 运营 数据 存储 。 
9.“ 实 时 数据 仓库 ”意味 着 源 数据 系统 、 决 策 支 持 服 务 和 数据 仓库 之 间 以 一 个 
的 速度 交换 数据 和 业务 规则 。 
10. 从 应 用 的 角度 看 ,数据 仓库 的 发 展演 变 可 以 归纳 为 5 个 阶段 : 
yg 和 以 实时 数据 仓库 和 自动 决策 为 主 。 
1. 什么 是 数据 仓库 ? 数据 仓库 的 特点 主要 有 哪些 ? 
2. 简 述 数据 仓库 4 种 体系 结构 的 异同 点 及 其 适用 性 。 
3. 简 述 你 对 数据 仓库 未 来 发 展 趋势 的 看 法 。 
4. 请 列 出 3 种 数据 仓库 产品 ,并 说 明 其 优 缺 点 。 


jd fed ps 


CHAPTER?2 


第 2 章 ”数据 仓库 的 数据 存储 与 处 理 


第 1 章 讲 到 数据 存储 与 数据 处 理 是 数据 仓库 系统 实施 的 三 个 关键 环节 
中 的 中 心 环节 ,对 数据 仓库 的 数据 存储 结构 设计 和 数据 处 理 技术 的 研究 在 数 
据 仓 库 理论 中 占有 重要 地 位 。 因 此 ,本章 专门 针对 这 个 问题 进行 讨论 。 


2.1 数据 仓库 的 数据 结构 


数据 仓库 的 数据 存储 可 用 图 2. 1 所 示 的 三 层 数据 结构 来 表示 。 简 单 地 
说 ,数据 是 从 企业 内 外 部 的 各 业务 处 理 系 统 (操作 型 数据 ) 流 向 企业 级 数据 仓 
库 或 操作 型 数据 存储 区 。 在 这 个 过 程 中 ,要 根据 企业 (或 其 他 组 织 ) 的 数据 模 
型 和 元 数据 库 对 数据 进行 调和 处 理 , 形 成 一 个 中 间 数 据 层 ,然后 再 根据 分 析 
需求 ,从 调和 数据 层 (EDW ODS) 将 数据 引入 导出 数据 层 . 如 形成 满足 各 类 
分 析 需 求 的 数据 集 市 。 


出 数据 
a | SO 
| 
手 调和 数据 EDW 
| 0 ~ ™| (EDW &ODs) 元 数据 
企业 数据 模型 
操作 型 数据 操作 型 
(如 业务 处 理 系统 ) 元 数据 


图 2.1 数据 仓库 的 三 层 数据 结构 


图 2. 1 中 各 个 组 成 部 分 的 含义 如 下 。 

(1) 操作 型 数据 (operational data) 。 操 作 型 数据 通常 存储 在 遍及 组 织 的 
各 种 不 同 的 操作 型 记录 系统 中 (如 企业 ERP .业务 计 费 系统 和 供应 链 系 统 等 ， 
有 时 甚至 是 在 组 织 外 部 的 信息 系统 中 ) 。 
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(2) 调和 数据 (reconciled data) 。 调 和 数据 是 存储 在 企业 级 数据 仓库 和 操作 型 数据 存 
储 中 的 数据 。 调 和 数据 是 详细 的 、 当 前 的 数据 。 对 所 有 的 决策 支持 应 用 来 说 ,调和 数据 是 单 
一 的 .权威 的 数据 源 。 

(3) 导出 数据 (derived data) 。 导 出 数据 是 存储 在 各 个 数据 集 市 中 的 数据 。 对 终端 用 户 
的 决策 支持 应 用 来 说 ,导出 数据 是 已 选择 的 、 格 式 化 了 的 聚集 数据 。 

(4) 企业 数据 模型 (enterprise data model) 。 企 业 数 据 模 型 描述 了 一 个 解释 组 织 (企业 
或 事业 单位 ) 所 需 数 据 的 整体 轮廓 。 由 于 调和 数据 层 是 数据 仓库 单一 的 .权威 的 数据 源 , 因 
此 ,调和 数据 必须 符合 企业 数据 模型 中 说 明 的 设计 规格 。 企 业 数 据 模型 控制 着 数据 仓库 的 
阶段 演化 , 随 着 新 需求 的 不 断 出 现 , 企 业 数据 模型 得 以 不 断 完 善 。 

(5) 元 数据 (metadata) 。 元 数据 是 描述 其 他 数据 的 属性 或 特征 的 技术 和 业务 数据 。 简 
单 地 说 ,元 数据 就 是 描述 数据 的 数据 , 它 体 现 的 是 一 种 抽象 。 在 设计 模式 中 ,强调 要 对 接口 
编程 ,就 是 说 不 要 处 理 这 类 对 象 和 那 类 对 象 的 交互 ,而 要 处 理 这 个 接口 和 那个 接口 的 交互 ， 
先 不 管 它们 内 部 是 怎么 实现 的 。 元 数据 存在 的 意义 也 在 于 此 。 元 数据 的 存在 就 是 要 做 到 在 
更 高 抽象 一 层 设计 软件 。 数 据 仓 库 系统 元 数据 的 作用 ,其 实 就 是 实现 系统 的 自动 运转 ,以 便 
于 管理 。 元 数据 是 数据 仓库 的 应 用 基础 。 图 2. 1 给 出 了 元 数据 与 不 同 数据 层 的 连接 ,对 应 
3 个 数据 层 的 元 数据 分 别 如 下 。 

Oa 操作 型 元 数据 。 描 述 不 同 操作 型 业务 系统 (和 外 部 数据 ) 中 提供 给 企业 数据 仓库 的 
数据 特性 。 操 作 型 元 数据 一 般 以 多 种 不 同 的 格式 存在 ,质量 通常 非常 差 。 

@ 企业 级 数据 仓库 元 数据 。 通 常 来 源 于 企业 数据 模型 ,至 少 是 与 企业 数据 模型 保持 一 
致 。EDW 元 数据 主要 描述 调和 数据 层 的 数据 特性 及 抽取 、 转 换 、 加 载 操作 型 数据 到 调和 数 
据 的 ETL 规则 。 

@ 数据 集 市 元 数据 。 描 述 导 出 数据 层 的 数据 特性 和 从 调和 数据 到 导出 数据 的 转换 规则 。 


2.2 数据 仓库 的 数据 特征 


221 状态 数据 与 事件 数据 


数据 仓库 中 的 数据 可 以 分 为 状态 数据 和 事件 数据 两 类 ,如 果 是 描述 对 象 的 状态 即 为 状 

态 数据 ,若是 描述 对 象 发 生 的 事件 即 为 事件 数据 ,两 者 的 关系 如 下 : 
(前 像 ) 状 态 数据 一 事件 数据 一 (后 像 ) 状 态 数 据 

事务 是 引起 一 个 或 更 多 个 业务 事件 的 数据 库 层 次 上 发 生 的 业务 活动 ,事件 是 一 个 由 事 
务 引 起 的 数据 库 活动 (创建 ,修改 、 删 除 )。 一 个 事务 可 能 引起 一 个 或 多 个 事件 。 例 如 ,银行 
取款 事务 将 导致 相关 银行 账户 余额 的 减少 ; 钱 从 一 个 账户 转移 到 另 一 个 账户 , 即 导 致 了 两 
个 事件 : 一 个 取款 事件 和 一 个 存款 事件 。 有 时 , 非 事务 也 是 非常 重要 的 事件 ,如 一 个 取消 的 
在 线 购物 车 、 网 络 连接 突然 中 断 等 。 

状态 数据 和 事件 数据 都 可 以 存储 在 数据 库 中 ,然而 ,存储 在 数据 库 和 数据 仓库 中 的 基本 
数据 类 型 是 状态 数据 。 数 据 仓库 通常 包括 状态 数据 的 历史 快照 或 关于 事务 或 事件 数据 的 汇 
总 (如 小 时 总 量 ) 。 


222 当前 数据 与 周期 数据 
在 数据 仓库 中 , 当 事 件 在 过 去 发 生 时 ,保存 一 份 记录 常常 是 非常 必要 的 。 例 如 ,比较 一 
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个 特定 日 期 或 一 段 时 间 内 的 销售 或 库存 同 以 前 年 份 相 同日 期 或 同样 的 时 间 段 的 销售 或 库 
存 。 操 作 型 业务 系统 中 往往 存储 大 量 的 “当前 数据 ?类 型 的 数据 。 

当前 数据 (transient data) 只 保留 当前 的 最 新 数据 ,现存 的 最 新 记录 将 改变 以 前 记录 中 
的 数据 , 即 不 保存 以 前 的 记录 内 容 。 因 此 ,当前 数据 将 破坏 以 前 的 历史 数据 内 容 。 

表 2. 1 给 出 了 一 个 关系 (库存 表 ) . 它 最 初 只 包括 两 行 。 表 中 有 4 个 属性 : 商品 编号 ( 主 
码 ) 和 三 个 非 码 属性 (商品 名 称 、 现 有 库存 量 和 更 新 日 期 )。 

表 2.2 是 在 表 2. 1 的 基础 上 ,1 天 后 发 生 的 改变 , 即 表 2. 1 原 有 的 两 行 数据 部 分 列 值 发 
生 了 改变 ( 现 有 库存 量 和 更 新 日 期 都 变 了 ), 且 增加 了 一 行 新 数据 。 表 2. 1 和 表 2. 2 中 的 数 
据 处 理 方式 是 操作 型 业务 系统 中 临时 数据 的 典型 特征 。 


表 2.1 简化 的 库存 表 ( 当 前 数据 类 型 ) 


商品 编号 商品 名 称 现 有 库存 量 更 新 日 期 
A0o01 A 品牌 的 方便 面 100 2008-7-25 
B002 也 品牌 的 衣服 200 2008-7-25 


表 2.2 1 天 后 的 简化 库存 表 ( 当 前 数据 类 型 ) 


商品 编号 商品 名 称 现 有 库存 量 更 新 日 期 
Aool A 品牌 的 方便 面 85 2008-7-26 
B002 B 品 牌 的 衣服 210 2008-7-26 
C003 C 品牌 的 矿泉 水 300 2008-7-26 


周期 数据 (periodic data) 则 相反 ,一 旦 保存 ,物理 上 就 不 再 改变 或 删除 数据 。 以 数据 日 
志 模 式 记 录 的 前 像 和 后 像 代 表 周 期 数据 。 通 常 每 个 周期 数据 记录 都 会 包含 一 个 时 间 惟 来 指 
示 日 期 甚至 时 间 ( 如 果 需 要 ) 。 

数据 仓库 的 一 个 典型 目标 就 是 保存 关键 事件 的 历史 记录 或 者 为 特定 变量 (如 销售 量 ) 创 
建 一 个 时 间 序 列 。 这 常常 需要 存储 周期 性 的 历史 数据 而 不 是 仅 存 当期 数据 。 表 2. 3 和 
表 2.4 是 周期 数据 类 型 一 个 简化 的 销售 日 报表 。 


表 2.3 简化 的 销售 日 报表 (周期 数据 类 型 ) 


商品 编号 商品 名 称 日 销售 量 销售 日 期 
Ao01 A 品牌 的 方便 面 15 2008-7-25 
B002 也 品牌 的 衣服 50 2008-7-25 


表 2.4 1 天 后 的 简化 销售 日 报表 (周期 数据 类 型 ) 


商品 编号 商品 名 称 日 销售 量 销售 日 期 
A0o01 A 品牌 的 方便 面 15 2008-7-25 
B002 B 品 牌 的 衣服 50 2008-7-25 
A001 A 品牌 的 方便 面 25 2008-7-26 
B002 也 品牌 的 衣服 45 2008-7-26 


Co03 C 品牌 的 矿泉 水 30 2008-7-26 
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一 旦 一 个 记录 存储 在 周期 数据 表 中 ,这 个 记录 就 不 再 改变 。 当 一 个 记录 改变 时 ,前 像 和 
后 像 将 分 别 被 存储 在 表 中 。 周 期 数据 类 型 可 以 积攒 足够 长 (通常 5 个 季度 以 上 ) 的 历史 数据 
用 于 趋势 分 析 等 工作 。 存 储 周期 数据 需要 大 量 的 存储 空间 ,所 以 数据 仓库 的 周期 数据 存储 
量 将 随 着 时 间 推 移 迅 速 增长 ,用 户 必 须 非常 小 心地 选择 需要 这 种 处 理 方式 的 关键 数据 。 
223 元 数据 

数据 仓库 的 第 三 个 数据 特征 是 其 元 数据 。 数 据 仓库 的 元 数据 实际 上 是 要 解决 何人 在 何 
时 何 地 为 了 什么 原因 及 怎样 使 用 数据 仓库 的 问题 ,再 具体 一 点 说 ,元 数据 在 数据 仓库 管理 员 
的 眼中 是 数据 仓库 中 包含 的 所 有 内 容 和 过 程 的 完整 知识 库 及 其 文档 ,在 最 终 用 户 ( 即 数据 分 
析 人 员 ) 眼 中 是 数据 仓库 的 信息 地 图 。 

数据 仓库 的 元 数据 通常 分 为 技术 元 数据 (technical metadata) 和 业务 元 数据 (business 
metadata) 两 类 。 

技术 元 数据 是 描述 关于 数据 仓库 技术 细节 的 数据 ,这 些 元 数据 应 用 于 开发 ,管理 和 维护 
数据 仓库 ,主要 包含 以 下 信息 。 

(1) 数据 仓库 结构 的 描述 。 包 括 数据 仓库 的 模式 、 视 图 、 维 、 层 次 结构 和 导出 数据 的 定 
义 ,以 及 数据 集 市 的 位 置 和 内 容 等 。 

(2) 业务 系统 .数据 仓库 和 数据 集 市 的 体系 结构 和 模式 。 

(3) 汇总 算法 。 包 括 度 量 和 维 定义 算法 ,数据 粒度 .主题 领域 .聚合 .汇总 和 预定 义 的 查 
询 与 报告 。 

(4) 由 操作 型 业务 环境 到 数据 仓库 环境 的 映射 。 包 括 源 数 据 和 它们 的 内 容 、 数 据 分 割 、 
数据 提取 ,清理 ,转换 规则 和 数据 刷新 规则 及 安全 (用 户 授权 和 存 取 控 制 ) 。 

业务 元 数据 是 从 业务 角度 描述 了 数据 仓库 中 的 数据 , 它 提 供 了 介 于 使 用 者 和 实际 系统 
之 间 的 语义 层 , 使 得 不 懂 计 算 机 技术 的 业务 人 员 也 能 够 “ 读 懂 "数据 仓库 中 的 数据 。 业 务 元 
数据 主要 包括 以 下 信息 。 

(1) 使 用 者 的 业务 术语 所 表达 的 数据 模型 .对象 名 和 属性 名 。 

(2) 访问 数据 的 原则 和 数据 的 来 源 。 

(3) 系统 所 提供 的 分 析 方 法 及 公式 和 报表 的 信息 。 

数据 分 析 员 为 了 能 有 效 地 使 用 数据 仓库 环境 ,往往 需要 元 数据 的 帮助 。 尤 其 是 在 数据 
分 析 员 进行 信息 分 析 处 理 时 ,他 们 首先 需要 查看 元 数据 。 元 数据 还 涉及 数据 从 操作 型 业务 
环境 到 数据 仓库 环境 的 映射 。 当 数据 从 操作 型 业务 环境 进入 数据 仓库 环境 时 ,数据 要 经 历 
数据 的 转化 清洗 ,过滤 .汇总 和 结构 改变 等 过 程 。 数 据 仓库 的 元 数据 要 能 够 及 时 跟踪 这 些 
转变 , 当 数 据 分 析 员 需要 就 数据 的 变化 从 数据 仓库 环境 追溯 到 操作 型 业务 环境 时 ,就 要 利用 
元 数据 来 追踪 这 种 转变 。 另 外 ,由 于 数据 仓库 中 的 数据 会 存在 很 长 一 段 时 间 , 其 间 数 据 仓库 
往往 可 能 会 改变 数据 的 结构 。 随 着 时 间 的 流逝 来 跟踪 数据 结构 的 变化 ,也 是 元 数据 另 一 个 
常见 的 使 用 功能 。 

元 数据 描述 了 数据 的 结构 、 内 容 、 链 和 索引 等 项 内 容 。 在 传统 的 数据 库 中 ,元 数据 是 对 
数据 库 中 各 个 对 象 的 描述 ,数据 库 中 的 数据 字典 就 是 一 种 元 数据 。 在 关系 数据 库 中 ,这 种 描 
述 就 是 对 数据 库 、 表 、 列 、 观 点 和 其 他 对 象 的 定义 ; 在 数据 仓库 中 ,元 数据 定义 了 数据 仓库 中 
的 对 象 ,如 表 、 列 查询、 业务 规则 及 数据 仓库 内 部 的 数据 转移 信息 等 。 元 数据 是 数据 仓库 的 
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重要 构件 ,是 数据 仓库 的 导航 图 。 元 数据 在 数据 源 抽取 数据 仓库 应 用 开发 .业务 分 析 ` 数 据 
仓库 服务 和 数据 重 构 等 过 程 中 都 有 重要 的 作用 。 


2.3 数据 仓库 的 数据 ETL 过 程 


建设 数据 仓库 需要 集成 来 自 多 种 业务 数据 源 中 的 数据 ,这 些 数据 源 可 能 是 在 不 同 的 硬 
件 平台 上 ,使 用 不 同 的 操作 系统 ,因而 数据 以 不 同 的 格式 存在 不 同 的 数据 库 中 。 如 何 向 数据 
仓库 中 加 载 这 些 数量 大 种 类 多 的 数据 ,已 成 为 建立 数据 仓库 所 面临 的 一 个 关键 问题 。 如 果 
其 中 的 信息 不 准确 ,那么 这 个 数据 仓库 便 形同虚设 。 因 此 ,向 数据 仓库 中 导入 操作 型 数据 
时 ,必须 进行 精心 规划 ,选择 合适 的 数据 源 , 创 建 标准 的 字段 名 集 ,确定 、 开 发 与 使 用 一 致 的 
数据 仓库 元 数据 标准 。 当 完成 这 些 工作 后 , 便 可 以 根据 设计 方案 建立 一 个 应 用 系统 来 转换 
数据 ,这 个 系统 通常 称 为 数据 的 ETL 工具 。 在 创建 数据 仓库 时 ,需要 使 用 ETL 工具 将 所 需 
数据 从 其 他 数据 库 中 (例如 不 同 版 本 的 SQL Server、Oracle 数据 库 等 ) 选 择 加工、 装载 到 数 
据 仓 库 中 去 。 

数据 ETL 是 用 来 实现 异 构 数据 源 的 数据 集成 , 即 完成 数据 的 抓 取 / 抽 取 清洗 .转换 .加 
载 与 索引 等 数据 调和 工作 ,如 图 2.2 所 示 。 


图 2.2 ETL 过 程 


ETL 软件 的 主要 功能 如 下 。 

(1) 数据 的 抽取 。 从 不 同 的 网 络 ,不同 的 操作 平台 、 不 同 的 数据 库 及 数据 格式 、 不 同 的 
应 用 中 抽取 数据 。 

(2) 数据 的 转换 。 数 据 转 化 (数据 的 合并 、 汇 总、 过 滤 和 转换 等 ) 数据 的 重新 格式 化 和 
计算 .关键 数据 的 重新 构建 和 数据 汇总 .数据 定位 等 。 

(3) 数据 的 加 载 。 将 数据 加 载 到 目标 数据 库 (数据 仓库 ) 中 ,通常 需要 跨 网 络 , 其 至 跨 操 
作 平 台 进行 加 载 。 
因此 ,ETL 过 程 就 是 调和 数据 的 过 程 。 一 个 EDW 或 者 ODS 通常 是 规范 化 的 关系 数据 
库 , 但 它 需 要 灵活 性 去 适应 多 种 决策 支持 应 用 的 需要 。 


23.1 ETL 的 目标 


抽取 、 转 换 、 加 载 过 程 的 目的 是 为 决策 支持 应 用 提供 一 个 单一 的 、 权 威 的 数据 源 。 因 此 ， 
要 求 ETL 过 程 产生 的 数据 ( 即 调 和 数据 层 ) 是 详细 的 、 历 史 的 、 规 范 化 的 、 可 理解 的 .即时 的 
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和 质量 可 控制 的 。 

(1) 详细 的 。 数 据 是 详细 的 (不 是 概括 的 ) ,为 不 同 用 户 构造 数据 提供 最 大 灵活 性 ,以 满 
足 他 们 的 需要 。 

(2) 历史 的 。 数 据 是 周期 性 的 ,用 来 提供 历史 记载 。 

(3) 规范 化 的 。 数 据 是 完全 规范 化 的 (如 第 三 范式 或 更 高 级 的 范式 )。 规 范 化 的 数据 比 
非 规范 化 的 数据 能 提供 更 完整 .更 灵活 的 使 用 。 反 向 规范 化 对 于 改进 调和 数据 层 的 性 能 通 
常 不 是 必需 的 ,因为 调和 数据 通常 使 用 批 处 理 定期 访问 。 然 而 ,导出 层 的 数据 往往 是 非 规范 
化 的 ,一 些 流行 的 数据 仓库 或 数据 集 市 的 核心 数据 结构 是 非 规范 化 的 。 

(4) 可 理解 的 。 要 求 站 在 企业 整体 的 角度 设计 调和 数据 层 数 据 , 它 的 设计 要 同 企业 数 
据 模 型 一 致 。 

(5) 即时 的 。 除 了 实时 数据 仓库 体系 结构 之 外 ,数据 不 需要 是 实时 的 。 然 而 ,数据 必须 
是 足够 当前 的 ,以 使 决策 制订 能 够 及 时 做 出 反应 。 

(6) 质量 可 控制 的 。 调 和 数据 必须 有 公认 的 质量 和 完整 性 ,因为 它们 将 被 聚集 进 数据 
集 市 且 用 于 决策 制订 。 

经 过 ETL 产生 的 调和 数据 同 其 来 源 的 操作 型 数据 有 很 大 的 区 别 , 因 为 操作 型 数据 具有 
如 下 特征 。 

(1) 操作 型 数据 是 即时 的 ,而 不 是 历史 的 。 

(2) 操作 型 数据 的 规范 化 程度 依赖 于 它们 的 来 源 , 有 规范 化 程度 高 的 ,也 有 可 能 从 未 被 
规范 化 或 因为 性 能 的 原因 可 能 被 反 向 规范 化 。 

(3) 操作 型 数据 通常 局 限 在 特定 的 应 用 范围 ,而 不 是 全 局 可 理解 的 。 

(4) 操作 型 数据 非常 详细 ,但 可 能 质量 很 差 ,通常 会 存在 一 些 不 一 致 或 错误 的 数据 。 


232 ETL 过 程 描述 


数据 的 ETL 过 程 就 是 负责 将 操作 型 数据 转换 成 调和 数据 的 过 程 。 如 2. 3. 1 节 所 述 ,这 
两 种 数据 具有 明显 的 区 别 , 因 此 ,数据 调和 是 构建 一 个 数据 仓库 中 最 难 的 和 最 具 技术 挑战 性 
的 部 分 。 在 为 企业 级 数据 仓库 填充 数据 的 过 程 中 ,数据 调和 可 分 为 如 下 两 个 阶段 。 

(1) 企业 级 数据 仓库 首次 创建 时 的 原始 加 载 。 

(2) 接 下 来 的 定期 修改 ,以 保持 EDW 的 当前 有 效 性 和 扩展 性 。 

数据 的 ETL 过 程 如 图 2. 3 所 示 , 由 4 个 步 又 组 成 . 即 抽 取 、 清 洗 、 转 换 、 加 载 与 索引 。 事 
实 上 ,这 些 步骤 可 以 进行 不 同 的 组 合 ,如 可 以 将 数据 抽取 与 清洗 组 合 为 一 个 过 程 ,或 者 将 清 
洗 和 转换 组 合 在 一 起 。 通 常 ,在 清洗 过 程 中 发 现 的 拒绝 数据 信息 会 送 回 到 源 操作 型 业务 系 
统 中 ,然后 将 数据 在 源 系统 中 加 以 处 理 , 以 便 在 以 后 重新 抽取 。 
抽取 白 到 i: 耽 ~、 加 载 与 案 引 


图 2.3 ETL 过 程 示意 图 
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233 数据 抽取 


从 源 文件 和 源 数 据 库 中 获取 相关 数据 用 于 填充 数据 仓库 , 称 为 抽取 。 并 非 所 有 包含 在 
不 同 操作 型 业务 系统 中 的 数据 都 需要 抽取 ,通常 只 需要 其 中 的 一 个 子 集 。 抽 取 数 据 的 一 个 
子 集 是 基于 对 源 系统 和 目标 系统 的 扩展 分 析 ,一般 会 由 终端 用 户 和 数据 仓库 专家 共同 决定 。 

数据 抽取 的 两 个 常见 类 型 是 静态 抽取 (static extract) 和 增 量 抽取 (incremental 
extract) 。 静 态 抽 取 用 于 最 初 填充 数据 仓库 ,是 一 种 在 某 一 时 间 点 获取 所 需 源 数 据 快照 的 方 
法 , 源 数 据 的 视图 独立 于 它 被 创建 的 时 间 。 增 量 抽取 用 于 进行 数据 仓库 的 维护 ,仅仅 获取 那 
些 从 上 一 次 获取 之 后 源 数 据 中 所 发 生 的 变化 ; 最 普遍 的 方法 是 日 志 获 取 , 数 据 库 日 志 包括 
数据 库 记 录 中 最 近 变 化 的 后 像 。 

抽取 数据 进入 集结 区 域 的 一 个 关键 是 源 系统 中 的 数据 质量 。 特 别 是 : 

(1) 数据 命名 的 透明 度 。 以 使 数据 仓库 设计 者 确切 地 知道 什么 数据 存放 于 哪个 源 系 
统 中 。 

(2) 由 一 个 源 系统 实施 的 业务 规则 的 完整 性 和 准确 性 。 这 将 直接 影响 到 数据 的 精度 ， 
而 且 , 源 系统 中 的 业务 规则 应 该 同 数据 仓库 中 使 用 的 规则 相 匹 配 。 

(3) 数据 格式 。 跨 数据 源 的 统一 格式 有 助 于 匹配 相关 的 数据 。 

同 源 系统 的 所 有 者 达成 一 致 协议 也 是 很 重要 的 ,所 以 , 当 源 系统 中 的 元 数据 发 生变 化 
时 ,它们 应 该 通知 数据 仓库 的 管理 员 。 因 为 事务 处 理 系统 经 常会 发 生变 化 以 适应 新 的 业务 
需要 或 者 使 用 新 的 、 更 好 的 软件 和 硬件 技术 ,管理 源 系 统 中 的 变化 是 抽取 过 程 中 的 最 大 挑战 
之 一 。 源 系统 中 的 变化 需要 数据 质量 和 数据 抽取 与 转换 过 程 的 重新 评估 ,因为 这 些 过 程 把 
源 系 统 中 的 数据 映射 到 目标 数据 仓库 (或 数据 集 市 ) 中 。 这 些 映射 说 明 数 据 仓 库 中 的 每 一 个 
数据 元 素 是 从 哪 一 个 源 系统 中 导出 来 的 ,并 怎样 执行 导出 。 对 于 定制 的 源 系统 ,数据 仓库 管 
理 员 必须 设计 定制 的 映射 和 抽取 实例 ,可 以 为 一 些 打包 的 应 用 软件 购买 预先 定义 好 的 映射 
模板 ,如 ERP( 企 业 资 源 规划 ) 系 统 。 

抽取 可 以 使 用 同 源 系统 相 联 系 的 工具 所 写 的 程序 来 完成 , 称 为 输出 数据 的 工具 。 数 据 
通常 以 一 种 中 间 数 据 格 式 抽取 .通常 .SQL 命令 SELECT …INTO 可 被 用 来 创建 表 。 一旦 
选择 数据 源 , 写 出 抽取 程序 ,数据 就 可 以 被 移 进 集结 地 (staging area) ,清洗 过 程 就 从 这 里 
开始 。 


234 数据 清洗 


通常 接受 的 事实 是 ,ETL 过 程 的 作用 是 为 了 识别 错误 数据 ,而 不 是 处 理 它们 。 应 该 在 
适当 的 源 系统 中 进行 处 理 错误 数据 .以 使 由 于 系统 过 程 错 误 所 造成 的 错误 数据 不 再 重新 出 
现 。 丢 弃 错误 数据 且 在 下 一 个 从 相关 源 系 统 的 反馈 中 重新 处 理 。 

但 由 于 许多 常见 的 原因 ,操作 型 业务 系统 中 的 数据 质量 很 差 ,这 些 原 因 包括 雇员 和 客户 
的 数据 登录 错误 , 源 系统 的 变化 、 损 坏 的 元 数据 、 系 统 错误 或 抽取 过 程 中 对 数据 的 破坏 。 因 
此 , 当 源 系统 工作 非常 好 的 时 候 ( 例 如 , 源 系统 使 用 默认 的 ,但 是 不 准确 的 值 ) ,也 不 能 假定 数 
据 就 是 干净 的 。 其 中 的 一 些 错 误 和 典型 的 数据 不 一 致 性 如 下 。 

(1) 错误 拼写 的 名 字 和 地 址 。 

(2) 不 可 能 的 或 错误 的 出 生日 期 。 
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(3) 没有 使 用 目的 的 字段 。 

(4) 不 匹配 的 地 址 和 电话 区 号 。 

(5) 缺失 的 数据 。 

(6) 重复 的 数据 。 

(7) 跨 源 的 不 一 致 性 (例如 不 同 的 地 址 ) 等 。 

下 面 是 一 些 错误 数据 的 例子 。 

客户 名 字 常 常用 作 主 码 或 者 客户 资料 的 搜索 条 件 。 然 而 ,这 些 名 字 常 被 错误 拼写 ,或 以 
几 种 方式 来 拼写 。 

另 一 种 数据 污染 发 生 在 当 一 个 字段 用 于 某 目 的 时 ,但 实际 并 不 想 用 这 个 字段 。 例 如 ,在 
一 个 银行 中 ,一 个 记录 字段 被 设计 成 保存 一 个 电话 号 码 。 然 而 ,不 需要 使 用 这 个 字段 的 某 分 
支 机 构 负责 人 就 决定 用 该 字段 来 存储 利率 。 你 可 能 想 知道 为 什么 这 样 的 错误 在 操作 型 业务 
数据 中 如 此 普遍 。 

操作 型 数据 的 质量 在 很 大 程度 上 决定 了 由 它们 所 属 的 企 事业 组 织 单位 聚集 这 些 数 据 的 
价值 。 因 为 这 些 数据 的 准确 程度 对 下 游 的 数据 仓库 应 用 程序 是 很 重要 的 。 

假定 错误 经 常 发 生 , 对 一 个 企业 或 其 他 组 织 来 说 ,最 坏 的 事 就 是 把 操作 型 数据 简单 地 复 
制 到 数据 仓库 中 。 事 实 上 ,可 以 通过 一 种 称 为 数据 清洗 的 技术 来 改善 源 数据 的 质量 。 

数据 清洗 (data scrubbing) 是 一 种 使 用 模式 识别 和 其 他 技术 ,在 将 原始 数据 转换 和 移 到 
数据 仓库 之 前 来 升级 原始 数据 质量 的 技术 。 怎 样 清洗 随 着 属性 变化 的 每 条 数据 ,在 每 个 
ETL 清洗 的 步骤 中 值得 考虑 分 析 。 每 次 对 源 数据 做 出 改变 时 ,数据 清洗 技术 必须 被 重新 评 
价 。 当 数据 很 明显 是 坏 数据 时 ,一些 清 洗 就 会 完全 地 拒绝 这 些 数据 ,而 且 发 送 一 个 消息 给 源 
系统 ,让 它 修 正 错 误 数 据 , 同 时 为 下 一 次 抽取 做 准备 。 在 完全 拒绝 数据 之 前 ,其 他 清洗 结果 
可 能 为 更 详细 的 手工 分 析 标 记 数 据 ( 例 如 ,为 什么 一 个 销售 员 售 出 比 其 他 销售 员 多 出 好 几 倍 
的 货物 ) 。 

成 功 的 数据 仓库 需要 实现 一 个 全 面 质量 管理 (total quality management,TQM) 的 正式 
程序 。TQM 侧重 于 缺陷 的 预防 ,而 不 是 缺陷 的 纠正 。 虽 然 数 据 清洗 可 以 帮助 提高 数据 质 
量 , 但 并 不 是 一 个 长 期 的 解决 数据 质量 问题 的 方法 。 

需要 清洗 的 数据 类 型 依赖 于 源 系统 中 数据 的 质量 。 除 了 修正 早期 识别 出 的 问题 类 型 
外 ,其 他 常见 的 清洗 任务 如 下 。 

(1) 为 数据 解码 ,以 使 它们 对 于 数据 仓库 技术 的 应 用 是 可 理解 的 。 

(2) 重新 格式 化 和 改变 数据 类 型 ,而 且 执 行 其 他 的 功能 ,以 使 从 每 个 源 得 到 的 数据 放 入 
为 转换 而 准备 的 标准 数据 仓库 格式 。 

(3) 增加 时 间 戳 以 区 分 处 于 不 同时 间 的 相同 属性 的 值 。 

(4) 在 不 同 的 度量 单位 之 间 进 行 转换 。 

(5) 为 表 的 每 一 行 产 生 一 个 主 码 。 

(6) 匹配 且 合 并 分 离 地 抽取 数据 到 一 个 表 或 文件 ,而 且 通 过 匹配 数据 来 进入 到 生成 的 
表 的 同一 行 ( 当 不 同 的 源 系 统 使 用 不 同 的 码 时 , 当 命名 习惯 不 同时 , 当 源 系统 中 的 数据 有 错 
时 ,这 可 能 是 一 个 非常 困难 的 过 程 ) 。 

(7) 登录 错误 检测 ,修正 这 些 错误 ,在 不 创建 重复 登录 的 情况 下 重新 处 理 纠正 的 数据 。 

(8) 找到 缺失 的 数据 ,使 即将 进行 的 加 载 工作 所 必需 的 批 数据 完善 。 
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不 同 的 数据 源 被 处 理 的 顺序 可 能 很 重要 ,例如 ,在 从 外 部 系统 来 的 新 客户 人 员 统计 数据 
能 与 这 些 客 户 匹 配 之 前 ,处 理 从 销售 系统 来 的 客户 数据 可 能 是 必需 的 。 
一 旦 数据 在 集结 区 域 (staging area) 被 清洗 ,数据 就 已 经 为 转换 准备 好 了 。 


235 数据 转换 


数据 转换 在 数据 的 ETL 过 程 中 处 于 中 心 位 置 , 它 把 数据 从 源 操作 型 业务 系统 的 格式 转 
换 到 企业 数据 仓库 的 数据 格式 。 数 据 转换 从 数据 抽取 阶段 接收 数据 (如 果 需 要 数据 清洗 , 则 
在 数据 清洗 之 后 ) ,将 数据 映射 到 调和 数据 层 (EDW 或 ODS) 的 格式 ,然后 传递 到 加 载 和 索 
引 阶 段 。 

数据 转换 可 能 只 是 简单 的 数据 格式 等 表示 方式 的 变化 ,也 可 能 是 高 度 复 杂 的 数据 组 合 
的 变化 。 例 如 , 某 制造 型 企业 的 产品 数据 分 别 存放 在 3 个 操作 型 业务 系统 中 : 制造 系统 、 销 
售 系统 和 工程 应 用 系统 。 构 建 企业 数据 仓库 需要 设计 这 些 产品 数据 的 一 个 统一 视图 。 数 据 
转换 需要 解决 不 同 的 键 结构 如 何 转换 成 普通 的 代码 集合 、 如 何 从 不 同 的 数据 源 组 合 数据 等 。 
这 些 转换 工作 非常 简单 ,大 多 数 所 需 功 能 可 以 在 一 个 带 有 图 形 接口 的 标准 商业 软件 包 中 
找到 。 

有 时 ,数据 清洗 功能 和 数据 转换 功能 混合 在 一 起 。 通 常情 况 下 ,数据 清洗 的 目的 是 纠正 
源 数据 中 数据 值 的 错误 ,而 数据 转换 的 目的 是 把 源 系 统 中 的 数据 格式 转化 成 目标 系统 的 数 
据 格 式 。 数 据 转换 前 进行 清洗 是 非常 必要 的 ,因为 如 果 数 据 在 转换 之 前 有 错误 ,错误 在 转换 
之 后 仍 会 保留 。 

数据 转换 包括 许多 功能 ,这 些 功能 可 以 分 为 两 大 类 : 记录 级 功能 和 字段 级 功能 。 在 大 
多 数 数据 仓库 应 用 中 ,需要 一 些 甚 至 所 有 这 些 功能 。 


1. 记录 级 功能 


对 一 组 记录 ,例如 一 个 文件 或 一 个 表 进 行 操作 ,是 最 重要 的 记录 级 功能 ,包括 选择 、 连 
接 、 规 范 化 和 聚集 。 因 为 选择 、 连 接 、 聚 集 常 可 用 SQL 语句 完成 ,所 以 记录 级 转换 通常 在 操 
作 型 数据 存储 或 企业 数据 仓库 中 进行 。 

选择 也 称 为 子 集 化 ,是 一 个 根据 预先 定义 的 规则 分 割 数据 的 过 程 。 对 于 数据 仓库 应 用 ， 
选择 功能 用 于 从 源 系 统 中 抽取 相关 数据 , 源 系 统 将 用 来 填充 数据 仓库 。 因 此 ,选择 可 以 说 是 
抽取 功能 的 一 部 分 。 当 源 数据 是 关系 表 时 ,SELECT 语句 可 以 用 于 选择 功能 。 

连接 将 来 自 不 同 源 的 数据 合并 到 一 个 单一 的 表 和 视图 中 。 连 接 数 据 是 数据 仓库 应 用 中 
的 一 个 重要 功能 ,因为 从 不 同 的 源 中 合并 数据 常常 是 必需 的 。 例 如 ,一 个 保险 公司 的 客户 数 
据 可 能 分 布 在 不 同 的 文件 和 数据 库 上 。 当 源 数据 是 关系 表 时 ,SELECT 语句 可 用 于 执行 连 
接 操作 。 

由 于 下 面 的 原因 ,连接 经 常 是 复杂 的 。 

(1) 源 数据 常常 不 是 关系 的 (抽取 源 是 文件 ) .这 种 情况 下 ,不 能 使 用 SQL 语句 。 取 而 
代 之 的 是 ,过 程 化 语言 语句 必须 被 编码 或 者 数据 必须 被 首先 移 到 使 用 RDBMS 的 集结 区 域 。 

(2) 对 于 关系 数据 ,被 连接 表 的 主 码 常 常 来 自 于 不 同 的 域 ,这 些 码 必须 在 SELECT 连 
接 执行 之 前 作 调和 。 

(3) 源 数据 可 能 包括 错误 ,使 得 连接 操作 很 危险 。 
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规范 化 (normalization) 是 分 解 有 异常 的 关系 ,产生 更 小 的 、 结 构 良好 的 关系 过 程 。 如 前 
所 述 ,操作 型 业务 系统 中 的 数据 可 能 是 非 规 范 化 的 (或 轻微 非 规范 化 的 )。 因 此 ,作为 数据 转 
换 的 一 部 分 ,数据 必须 被 规范 化 。 

聚焦 (aggregation) 是 把 数据 从 详细 级 别 转换 成 一 个 汇总 级 别 的 过 程 。 例 如 ,在 零售 业 
中 ,明细 销售 事务 可 以 通过 商店 .产品 和 日 期 等 被 分 组 汇总 出 一 些 概括 型 销售 信息 。 企 业 数 
据 仓库 通常 只 包括 详细 数据 ,聚集 是 填充 数据 集 市 的 重要 功能 。 


2. 字段 级 功能 


字段 级 功能 把 数据 从 源 记录 中 给 定 的 格式 转变 到 目标 记录 中 不 同 的 格式 。 字 段 级 功能 
有 两 种 类 型 : 单字 段 和 多 字段 。 

单字 段 转换 是 把 数据 从 单 源 字段 转换 到 单 目标 字段 。 单 字段 转换 的 一 个 例子 是 把 度量 
单位 从 本 地 标准 (如 斤 ) 转 换 到 公制 (千克 )。 单 字段 转换 有 两 种 基本 方法 : 算法 和 表 查 找 。 
算法 转换 是 使 用 公式 或 逻辑 表达 式 来 执行 转换 ,如 使 用 公式 从 华氏 温度 到 摄氏 温度 的 转换 。 
当 一 个 简单 算法 不 能 实施 转换 时 ,可 以 考虑 使 用 一 个 查找 表 ( 如 编码 与 名 称 映射 表 等 ) 来 解决 。 

多 字段 转换 是 把 数据 从 一 个 或 多 个 源 字段 转换 到 一 个 或 多 个 目标 字段 。 这 种 类 型 的 转 
换 在 数据 仓库 应 用 中 是 非常 普遍 的 。 

在 图 2. 4 中 给 出 了 两 个 源 字 段 转换 成 一 个 目标 字段 的 例子 ,两 个 源 字段 被 映射 到 一 个 
目标 字段 中 。 在 源 记 录 表 中 ,商品 单价 和 销售 数量 是 更 明细 的 数据 ; 但 在 目标 记录 表 中 ,该 
组 合 被 映射 成 了 销售 金额 ,以 便于 数据 的 汇总 ,这 里 可 以 通过 算法 (金额 一 单价 X 数 量 ) 来 完 
成 转换 。 但 一 些 复杂 转换 可 能 需要 创建 一 个 查找 表 来 实现 。 


商品 编码 | 商品 名 称 商品 单价 销售 数量 | 


金额 = 单价 XxX 数量 


1 
商品 编码 | ”商品 名 称 ”销售 金额 


图 2.4 多 字段 转换 示例 


更 复杂 的 转换 情况 是 多 字段 转换 可 以 包括 多 于 一 个 的 源 记 录 和 多 于 一 个 的 目标 记录 。 
在 最 复杂 的 情况 下 ,这 些 记 录 可 能 来 自 于 不 同 的 操作 型 业务 系统 ,甚至 是 不 同 的 时 区 。 
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加 载 和 索引 , 即 是 把 数据 加 载 到 数据 仓库 或 数据 集 市 的 过 程 。 填 充 企业 数据 仓库 的 最 
后 一 步 是 加 载 所 选择 的 数据 到 目标 数据 仓库 中 ,并 且 创建 所 需 的 索引 。 加 载 数 据 到 目标 
EDW 中 的 两 个 基本 方式 是 刷新 方式 和 更 新 方式 。 

刷新 方式 (refresh mode) 是 一 种 填充 数据 仓库 的 方法 .采用 在 定期 的 间隔 对 目标 数据 
进行 批量 重 写 的 技术 。 也 就 是 说 ,目标 数据 起 初 被 写 进 数据 仓库 ,然后 每 隔 一 定 的 时 间 , 数 
据 仓库 被 重 写 , 蔡 换 以 前 的 内 容 。 现 在 这 种 加 载 方式 越 来 越 不 流行 了 。 


36 | 
园 据 仓库 与 数据 挖掘 


更 新 方式 (update mode) 是 一 种 只 将 源 数据 中 的 数据 改变 写 进 数据 仓库 的 方法 。 为 了 
支持 数据 仓库 的 周期 性 ,便于 历史 分 析 ,新 记录 通常 被 写 进 数据 仓库 中 ,但 不 覆盖 或 删除 以 
前 的 记录 ,而 是 通过 时 间 截 来 分 辨 它们 。 

刷新 方式 通常 用 于 数据 仓库 首次 被 创建 时 填充 数据 仓库 。 更 新 方式 通常 用 于 目标 数据 
仓库 的 维护 。 刷 新 方式 通常 与 静态 数据 获取 相 结 合 ,而 更 新 方式 常 与 增 量 数据 获取 相 结合 。 

在 刷新 或 更 新 数据 后 ,有 必要 创建 或 维护 数据 仓库 的 索引 。 位 图 索引 和 连接 索引 常 被 
用 于 数据 仓库 环境 。 

因为 数据 仓库 保存 了 从 不 同 的 源 系 统 中 集成 而 来 的 历史 数据 ,对 数据 仓库 的 用 户 来 说 ， 
知道 数据 从 何 而 来 非常 重要 。 元 数据 可 以 提供 关于 特定 属性 的 信息 ,但 是 元 数据 也 必须 表 
示 历 史 ( 例 如 源 可 能 随时 间 而 变 ) 。 如 果 有 更 多 的 源 或 知道 哪 一 个 特定 的 抽取 或 加 载 文件 把 
数据 放 在 了 数据 仓库 中 ,或 者 哪个 转换 程序 创建 了 数据 ,更 详细 的 过 程 可 能 是 必需 的 (这 对 
于 提示 数据 仓库 中 所 发 现 的 错误 源 可 能 是 必需 的 )。 因 此 ,跟踪 数据 仓库 数据 来 源 也 是 有 其 
复杂 性 的 。 

在 什么 样 的 频 度 上 修改 数据 仓库 ? 如 果 不 频繁 更 新 数据 ,可 能 导致 每 次 的 加 载 数据 量 
特别 大 , 且 用 户 需要 等 待 新 的 数据 。 因 此 ,接近 实时 地 加 载 数据 仓库 技术 是 必需 的 ,但 是 对 
于 大 多 数 的 数据 挖掘 和 分 析 应 用 程序 来 说 是 低 效 的 和 不 必要 的 。 一 般 来 说 ,每 天 更 新 对 于 
大 多 数 的 组 织 来 说 是 足够 的 (统计 表明 ,75% 的 组 织 每 天 做 修改 )。 然 而 ,每 天 更 新 一 次 对 一 
些 变化 的 情况 做 出 迅速 反应 是 不 可 能 的 。 业 界 趋势 是 1 天 更 新 几 次 ,几乎 是 接近 实时 更 新 。 
也 有 些 企 业 使 用 大 的 更 新 闻 隔 周期 ,如 1 个 月 。 

加 载 数据 到 数据 仓库 意味 着 向 数据 仓库 中 的 表 添 加 新 行 , 也 可 能 是 用 新 数据 修改 现存 
的 行 ( 例 如 ,从 附加 的 数据 源 中 填充 缺失 的 数据 )。 还 意味 着 从 数据 仓库 中 清除 识别 为 无 效 
的 数据 ,这 些 数据 因为 时 间 太 长 而 过 时 ,或 者 在 以 前 的 加 载 操作 中 加 载 了 不 正确 的 数据 。 数 
据 通 常 以 从 集结 区 加 载 到 数据 仓库 中 ,加载 方法 包括 如 下 几 种 。 

(1) SQL 命令 (例如 INSERT 或 UPDATE) 。 

(2) 由 数据 仓库 供应 商 或 第 三 方 提供 专门 的 加 载 工 具 。 

(3) 由 数据 仓库 管理 员 编 写 自 定义 程序 。 

无 论 如 何 ,这 种 加 载 不 仅 要 修改 数据 仓库 ,而 且 必须 产生 错误 报告 ,以 显示 拒绝 的 数据 
(例如 ,试图 用 一 个 重复 键 来 添加 一 行 或 者 修改 在 数据 仓库 表 中 不 存在 的 一 行 )。 

加 载 工具 可 能 是 以 批 或 连续 的 方式 工作 。 可 以 使 用 工具 写 一 个 脚本 程序 ,定义 集结 区 
中 的 数据 格式 及 哪个 集结 区 中 的 数据 映射 到 哪个 数据 仓库 。 这 个 工具 在 数据 加 载 ( 刷 新 方 
式 ) 之 前 可 以 清除 数据 仓库 表 (DROP TABLE) 中 的 所 有 数据 ,或 能 够 添加 新 行 (更 新 方式 ) 。 
加 载 工具 还 可 以 分 类 输入 数据 。 工 具 软件 可 以 像 数 据 库 存储 过 程 那样 运行 ,因为 加 载 的 执 
行 可 能 会 非常 耗 时 。 为 了 防止 DBMS( 数 据 库 管 理 系 统 ) 在 执行 一 个 加 载 过 程 中 受到 破坏 ， 
可 以 从 一 个 检查 点 重新 启动 加 载 是 非常 重要 的 。 


2.4 多 维 数据 模型 


ETL 过 程 产生 出 企业 级 数据 仓库 或 操作 型 数据 存储 ,在 此 基础 上 ,进一步 为 终端 用 户 
决策 支持 应 用 对 数据 进行 选择 .格式 化 .聚集 处 理 , 将 生成 导出 数据 ,这 是 同 逻 辑 或 物理 数据 
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集 市 相关 的 数据 层 , 即 导出 数据 通常 是 为 了 某 个 特定 群体 (如 部 门 、 工 作 组 等 ) 的 需要 而 优化 
或 选取 的 数据 。 一 种 情况 是 从 企业 级 数据 仓库 中 选取 相关 数据 ,并 按 需 要 对 这 些 数 据 进行 
格式 化 和 聚集 ,然后 加 载 到 目标 数据 集 市 中 并 建立 索引 。 

因此 ,这 一 层 数 据 有 如 下 特征 。 

(1) 详细 数据 (如 周期 性 的 历史 记录 ) 和 聚集 数据 并 存 。 

(2) 为 特定 目标 用 户 和 特定 应 用 定制 的 数据 ,并 为 之 提供 快速 响应 。 

(3) 最 普遍 使 用 的 数据 模型 是 星 型 模式 。 

数据 仓库 中 导出 数据 层 的 数据 存储 方式 通常 有 两 种 : 一 种 是 存储 在 多 维 数据 库 中 ,也 
就 是 按 多 维 数组 的 方式 存储 ,对 应 MOLAP; 另 一 种 是 存储 在 关系 数据 库 中 ,采用 星 型 模式 
及 其 变 体 , 对 应 ROLAP。 


24.1 多 维 数据 模型 及 其 相关 概念 


数据 模型 一 般 有 两 个 层次 : 概念 层 ( 逻 辑 层 ) 和 物理 层 。 逻 辑 数 据 模 型 是 从 概念 角度 抽 
象 出 现实 世界 的 内 在 规律 ,如 业务 流程 .数据 架构 等 ; 物理 数据 模型 则 侧重 于 特定 环境 下 的 
具体 实现 ,如 效率 ,安全 性 等 。 

多 维 数据 模型 是 一 个 逻辑 概念 ,该 模型 主要 解决 如 何 对 大 量 数据 进行 快速 查询 和 多 角 
度 展示 ,以 便 得 出 有 利于 管理 决策 的 信息 和 知识 。 多 维 数据 模型 的 应 用 领域 主要 有 数据 仓 
库 .OLAP 和 数据 挖掘 3 个 方面 。 其 中 ,多 维 数据 结构 是 OLAP 的 核心 。 

多 维 数据 模型 通过 引入 维 、 维 分 层 和 度量 等 概念 ,将 信息 在 概念 上 视 为 一 个 立方 体 ( 其 
实 是 多 维 数据 空间 ) , 即 用 三 维 或 更 多 的 维 数 描述 一 个 对 象 , 每 个 维 彼此 垂直 。 数 据 的 度量 
值 发 生 在 维 的 交叉 点 上 ,数据 空间 的 各 个 部 分 都 有 维 属 性 。 


1. 多 维 数据 模型 的 相关 概念 


(1) 维 。 维 是 人 们 观察 数据 的 特定 角度 ,是 考虑 问题 时 的 一 类 属性 。 此 类 属性 的 集合 
构成 一 个 维度 (如 时 间 维 .产品 维 等 ) 。 

(2) 维 类 别 。 维 类 别 也 叫 维 分 层 , 即 同一 维度 还 可 以 存在 细节 程度 不 同 的 各 个 类 别 属 
性 (如 时 间 维 包括 年 .季度 月份. 周 . 日 期 和 小 时 等 ) 。 

(3) 维 属性 。 维 属性 是 维 的 一 个 取 值 ,是 数据 项 在 某 维 中 位 置 的 描述 (例如 * 某 年 某 月 
某 日 ?是 在 时 间 维 上 位 置 的 描述 ) 。 

(4) 度量 。 度 量 是 多 维 数据 空间 中 的 单元 格 , 用 以 存放 数据 ,也 叫 事实 ,如 收益 、 成 本 、 
利润 率 、 数 量 和 价格 等 ,它们 通常 是 可 累加 的 ,并 直接 与 模型 中 的 维 数 相关 。 也 有 些 度 量 是 
不 能 累加 的 或 者 说 累加 结果 没有 意义 .但 其 平均 值 有 意义 ,如 温度 、 价 格 等 。 

(5) 粒度 。 粒 度 是 对 数据 仓库 中 数据 的 综合 程度 高 低 的 一 个 衡量 。 粒 度 越 小 ,细节 程 
度 越 高 ,综合 程度 越 低 , 回 答 查 询 的 种 类 越 多 ; 反之 ,粒度 越 大 ,细节 程度 越 低 ,综合 程度 越 
高 ,回答 查询 的 种 类 越 少 。 

(6) 分 割 。 分 割 是 将 数据 分 散 到 各 自 的 物理 单元 中 去 ,以 便 能 分 别 独 立 处 理 , 以 提高 数 
据 处 理 的 效率 。 数 据 分 割 后 的 数据 单元 称 为 分 片 。 数 据 分 割 的 标准 可 以 根据 实际 情况 来 确 
定 , 通 常 可 选择 按 日 期 地域 或 者 业务 领域 等 进行 分 割 ,也 可 以 按照 多 个 标准 组 合 分 割 。 
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2. 数据 综合 级 别 与 粒度 的 确定 


数据 仓库 中 存在 不 同 综合 级 别 的 数据 。 一 般 把 数据 分 成 4 个 级 别 : 早期 细节 级 、 当 前 
细节 级 、 轻 度 综合 级 和 高 度 综合 级 。 衡 量 综合 级 别 的 指标 称 为 粒度 ,粒度 越 大 ,表示 细节 程 
度 越 低 ,综合 程度 越 高 。 级 别 的 划分 是 根据 粒度 进行 的 。 

在 数据 仓库 中 确定 粒度 的 级 别 时 ,需要 考虑 这 样 一些 因 素 : 要 接受 的 分 析 类 型 .可 接受 
的 数据 最 低 粒 度 和 能 存储 的 数据 量 等 。 

计划 在 数据 仓库 中 进行 的 分 析 类 型 将 直接 影响 到 数据 仓库 的 粒度 划分 。 将 粒度 的 层次 
定义 得 越 高 ,就 越 不 能 在 该 仓库 中 进行 更 细致 的 分 析 。 例 如 ,将 粒度 的 层次 定义 为 月 份 时 ， 
就 不 可 能 利用 数据 仓库 进行 按 日 汇总 的 信息 分 析 。 

数据 仓库 通常 在 同一 模式 中 使 用 多 重 粒度 。 在 数据 仓库 中 ,可 以 有 今年 创建 的 数据 粒 
度 和 以 前 创建 的 数据 粒度 ,这 是 以 数据 仓库 中 所 需 的 最 低 粒度 级 别 为 基础 设置 的 。 例 如 ,可 
以 用 低 粒 度数 据 保 存 近期 的 财务 数据 和 汇总 数据 ,对 时 间 较 远 的 财务 数据 只 保留 粒度 较 大 
的 汇总 数据 。 这 样 既 可 以 对 财务 近况 进行 细节 分 析 , 又 可 以 利用 汇总 数据 对 财务 趋势 进行 
分 析 , 这 里 的 数据 粒度 划分 策略 就 需要 采用 多 重 数据 粒度 。 

定义 数据 仓库 粒度 的 另外 一 个 要 素 是 数据 仓库 可 以 使 用 多 少 存储 介质 的 空间 量 。 如 果 
存储 资源 有 一 定 的 限制 ,就 只 能 采用 较 高 粒度 的 数据 粒度 划分 策略 。 这 种 粒度 划分 策略 必 
须 依 据 用 户 对 数据 需求 的 了 解 和 信息 占用 数据 仓库 空间 的 大 小 来 确定 。 

选择 一 个 合适 的 粒度 是 数据 仓库 设计 过 程 中 所 要 解决 的 一 个 复杂 的 问题 ,因为 粒度 的 
确定 实质 上 是 业务 决策 分 析 、 硬 件 、 软 件 和 数据 仓库 使 用 方法 的 一 个 折 中 。 在 确定 数据 仓库 
的 粒度 时 ,可 以 采用 多 种 方法 来 达到 既 能 满足 用 户 决策 分 析 的 需要 ,又 能 减少 数据 仓库 的 数 
据 量 。 如 果 主 题 分 析 的 时 间 范 围 较 小 ,可 以 保持 较 少时 间 的 细节 数据 。 例 如 ,在 分 析 销 售 趋 
势 的 主题 中 ,分 析 人 员 只 利用 一 年 的 数据 进行 比较 ,那么 保存 销售 主题 的 数据 只 需要 15 个 
月 的 就 足够 解决 问题 了 ,不 必 保存 大 量 的 数据 和 时 间 过 长 的 数据 。 

还 有 一 种 可 以 大 幅 降低 数据 仓库 容量 的 方法 .就 是 只 采用 概括 数据 。 这 样 处 理 后 ,确实 
可 以 降低 数据 仓库 的 存储 空间 ,但 是 有 可 能 达 不 到 用 户 管理 决策 分 析 中 对 数据 粒度 的 要 求 。 
因此 ,数据 粒度 的 划分 策略 一 定 要 保证 数据 的 粒度 确实 能 够 满足 用 户 的 决策 分 析 需 要 ,这 是 
数据 粒度 划分 策略 中 最 重要 的 一 个 准则 。 


242 多 维 数据 模型 的 实现 


多 维 数据 模型 的 物理 实现 有 多 种 途径 ,其 中 主要 有 采用 多 维 数据 库 (multi-dimension 
database, MDDB) 、 关 系数 据 库 以 及 两 者 相 结 合 的 方式 ,对 应 于 OLAP 系统 分 别称 之 为 
MOLAP.ROLAP 和 HOLAP。 


1. 多 维 数据 库 


多 维 数据 库 也 是 一 种 数据 库 , 可 以 将 数据 加 载 . 存 储 到 此 数据 库 中 ,或 从 中 查询 数据 。 
但 其 数据 是 存储 在 大 量 的 多 维 数组 中 .而 不 是 关系 表 中 。 各 种 软件 工具 或 程序 都 可 以 访问 
多 维 数据 库 , 如 Excel、.Cognos。 多 维 数据 库 对 于 分 析 非 常 密集 的 数据 集 非 常 合适 ,但 不 具 
有 支持 企业 数据 仓库 所 需 的 数据 宽度 。 
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与 之 相对 应 的 是 多 维 联机 分 析 人 处理 (MOLAP) ,多 维 联机 分 析 处 理 遵照 库 德 的 定义 , 自 
行 建立 多 维 数据 库 来 存放 联机 分 析 系 统 的 数据 , 它 以 多 维 数据 组 织 方式 为 核心 ,即使 用 多 维 
数组 方式 存储 数据 。 

当 利 用 多 维 数据 库存 储 OLAP 数据 时 ,不 需要 将 多 维 数据 模型 中 的 维度 . 层 划 分 和 立 
方 体 等 概念 转换 成 其 他 的 物理 模型 ,因为 多 维 数组 能 很 好 地 体现 多 维 数据 模型 特点 。 利 用 
数组 实现 多 维 数据 模型 的 优点 ,在 于 对 数据 的 快速 访问 ,但 同时 也 会 带 来 存储 空间 的 元 余 ， 
即 稀 朴 矩 阵 问 题 ,进而 导致 对 存储 空间 的 极 大 需求 。 

为 了 解决 稀 蚊 矩阵 问题 ,一 些 MOLAP 产品 提出 了 稀 玻 维 (sparse) 和 密度 维 (dense) 策 
略 。 由 稀 玖 维 产生 索引 块 ,由 密度 维 形成 数据 块 。 只 有 当 稀 玖 维 的 组 合 在 交易 事件 初次 发 
生 时 才 创 建 索引 块 , 进 而 创建 数据 块 。 稀 琉 维 和 密度 维 的 引入 在 一 定 程 度 上 降低 了 多 维 数 
据 库 的 存储 宛 余 问 题 。 此 外 ,还 可 以 通过 数据 压缩 技术 降低 数据 块 的 存储 空间 。 


2. 关系 数据 库 


关系 数据 库 是 存储 OLAP 数据 的 另 一 种 主要 方式 。 与 之 对 应 的 是 关系 联机 分 析 处 理 
(ROLAP) ,ROLAP 以 关系 数据 库 为 核心 ,以 关系 型 结构 进行 多 维 数据 的 表示 和 存储 。 
ROLAP 将 数据 的 多 维 结构 划分 为 两 类 表 : 一 类 是 事实 表 ,. 用 来 存储 数据 和 维 关键 字 ; 另 一 
类 是 维 表 ,对 每 个 维 至 少 使 用 一 个 表 来 存放 维 的 层次 .成员 类 别 等 维 的 描述 信息 。 维 表 和 事 
实 表 通过 主 关键 字 ( 主 键 ) 和 外 关键 字 ( 外 键 ) 联 系 在 一 起 ,形成 * 星 型 模式 ”, 通 常 叫 做 * 星 型 
模式 ”。 对 于 层次 复杂 的 维 ,为 避免 元 余数 据 占 用 过 大 的 存储 空间 ,可 以 使 用 多 个 表 描述 ,这 
种 星 型 模式 的 扩展 称 为 “雪花 型 模式 ”。 这 种 多 维 数据 的 表示 方式 能 够 让 使 用 者 以 较 简单 的 
方式 了 解 这 些 数据 ,增加 查询 效率 .并 对 海量 数据 的 存储 空间 有 较 少 要 求 。 

图 2.5 是 星 型 架构 ( 星 型 模式 ) 示 意图 ,其 中 有 1 个 事实 表 和 4 个 维 表 。 


维 表 维 表 
key 1(PK) (oO 六 一 一 | Key 3(PK) 
属性 事实 表 属性 1 
属性 2 KY EOE | 属性 2 
: [| : 
属性 [| 属性 n 

Key 4(PKXFK) 
维 表 Key S(PK) 维 表 
key 2(PK) | 数据 中 | Key 4(PK) 
属性 1 | 属性 | 
属性 2 站 | 属性 2 
| | 数据 列 n : 
属性 n 属性 n 


图 2.5 星 型 模式 结构 示意 图 


维 是 关于 一 个 组 织 想 要 记录 的 视角 或 观点 。 每 个 维 都 有 一 个 表 与 之 相关 联 , 称 为 维 表 。 
维 表 是 对 维 的 属性 的 描述 。 事 实 是 一 个 数据 度量 .对 所 要 考察 的 数据 的 一 个 数值 度量 .事实 
表 包 括 事实 的 名 称 或 度量 以 及 每 个 相关 维 表 的 关键 字 。 
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通常 情况 下 ,事实 表 有 如 下 特性 。 

(1) 大 量 的 数据 行 ,存储 容量 可 达到 TB 级 。 

(2) 主要 是 数值 信息 ,也 可 有 少量 的 文字 或 者 多 媒体 信息 。 

(3) 有 和 维 表 连 接 的 外 键 。 

(4) 主要 是 静态 数据 和 聚集 数据 。 

维 表 中 的 信息 是 对 事实 表 的 相应 说 明 ,例如 产品 特征 、 销 售 时 间 和 客户 账号 等 。 通 过 维 
表 将 复杂 的 描述 分 割 成 几 个 小 部 分 ,如 某 个 时 间 点 的 销售 量 等 ,减少 对 事实 表 的 扫描 ,实现 
优化 查询 。 它 主要 有 以 下 特性 。 

(1) 记录 数 较 少 ,可 能 不 到 上 千 或 者 上 万 个 记录 。 

(2) 大 多 为 文字 信息 。 

(3) 信息 具有 层次 结构 。 

(4) 只 有 一 个 主键 (dimension key,PK) 。 

(5) 信息 可 修改 。 


3. 两 种 存储 模式 的 比较 和 选择 


多 维 联机 分 析 处 理 的 优势 不 仅 在 于 能 清晰 地 表达 多 维 概念 ,更 重要 的 是 它 有 着 极 高 的 
聚集 汇总 速度 。 在 关系 数据 库 管理 系统 中 ,如 果 要 得 到 某 一 地 区 的 销售 总 量 ,只 能 逐条 记录 
检索 ,找到 满足 条 件 的 记录 后 将 数据 相 加 。 而 在 多 维 数据 库 中 ,数据 可 以 直接 按 行 或 列 累 
加 ,其 统计 速度 远 远 超 过 关系 数据 库 管理 系统 。 数 据 库 中 的 记录 数 越 多 ,其 效果 越 明 显 。 但 
是 ,对 多 维 联机 分 析 处 理 来 说 , 随 着 维度 和 维 成 员 的 增加 ,其 存储 空间 将 呈现 指数 级 增长 。 

关系 联机 分 析 处 理 的 存储 空间 没有 大 小 限制 ,现成 的 关系 数据 库 技术 可 以 直接 使 用 ,可 
以 通过 SQL 实现 详细 数据 与 概要 数据 的 存储 与 检索 ,现在 的 关系 型 数据 库 已 经 对 OLAP 
做 了 很 多 优化 ,包括 并 行 存储 、 并 行 查询 ,并行 数据 管理 .基于 成 本 的 查询 优化 .位 图 索引 以 
及 SQL 的 OLAP 扩展 等 ,大 大 提高 了 关系 联机 分 析 处 理 的 访问 效率 。 相 比较 而 言 ,关系 联 
机 分 析 处 理 技术 具有 更 大 的 可 伸缩 性 。 

在 具体 项 目的 实施 过 程 中 ,对 OLAP 产品 和 存储 模式 的 选择 还 应 考虑 企业 数据 量 的 大 
小 ,数据 处 理 过 程 .访问 效率 和 性 价 比 等 多 个 方面 的 因素 。 由 于 多 维 联机 分 析 处 理 访问 具有 
高 效 性 ,可 以 将 企业 应 用 的 大 部 分 聚集 层 数据 以 多 维 联机 分 析 处 理 形式 存储 ; 对 有 大 量 细 
节 数 据 的 应 用 ,为 防止 多 维 数据 库 的 存储 空间 过 于 膨胀 ,可 对 细节 数据 以 关系 联机 分 析 处 理 
方式 存储 ,对 于 不 经 常 查询 的 大 型 数据 集 , 如 年 份 较 早 的 历史 数据 等 也 通常 采用 关系 联机 分 
析 处 理 方式 存储 。 这 种 兼用 两 种 存储 模式 的 方式 也 叫做 HOLAP 模式 。 


243 多 维 建 模 技术 


要 成 功 地 建立 一 个 数据 仓库 ,必须 要 有 一 个 合理 的 数据 模型 。 数 据 仓 库 建 模 在 业务 需 
求 分 析 之 后 开始 。 在 创建 数据 仓库 数据 模型 时 应 考虑 : 满足 不 同 层次 、 用 户 的 需求 ; 兼顾 
查询 效率 与 数据 粒度 的 需求 ; 支持 用 户 需求 变化 ; 避免 对 业务 运营 系统 的 性 能 影响 ; 提供 
可 扩展 性 。 数 据 模型 的 可 扩展 性 决定 了 数据 仓库 对 新 需求 的 适应 能 力 , 建 模 时 既 要 考虑 眼 
前 的 信息 需求 ,也 要 考虑 未 来 的 需求 。 
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1. 主流 的 建 模 技术 


两 种 主流 的 数据 仓库 模型 分 别 是 Inmon 提出 的 企业 级 数据 仓库 模型 和 由 Kimball 提 
出 的 多 维 模型 。Inmon 提出 的 企业 级 数据 仓库 模型 采用 第 三 范式 (3NF), 先 建立 企业 级 数 
据 仓 库 ,再 在 其 上 开发 具体 的 应 用 。 企 业 级 数据 仓库 固然 是 我 们 所 追求 的 目标 ,但 在 缺乏 足 
够 的 技术 力量 和 数据 仓库 建设 经 验 的 情况 下 ,按照 这 种 模型 设计 的 系统 建设 过 程 长 ,周期 
长 ,难度 大 ,风险 大 ,容易 失败 。 这 种 模型 的 优点 是 信息 全 面 、 系 统 灵 活 。 由 于 采用 了 第 三 范 
式 , 数 据 存 储 元 余 度 低 、 数 据 组 织 结构 性 好 、 反 映 的 业务 主题 能 力 强 以 及 具有 较 好 的 业务 扩 
展 性 等 ,但 同时 会 存在 大 量 的 数据 表 , 表 之 间 的 联系 比较 多 ,也 比较 复杂 , 跨 表 操作 多 ,查询 
效率 较 低 ,对 数据 仓库 系统 的 硬件 性 能 要 求 高 等 问题 。 另 一 方面 ,数据 模式 复杂 ,不 容易 理 
解 , 对 于 一 般 计算 机 用 户 来 说 ,增加 了 理解 数据 表 的 困难 。 

Kimball 提出 的 多 维 模型 降低 了 范式 化 ,以 分 析 主 题 为 基本 框架 来 组 织 数 据 。 以 维 模 
型 开发 分 析 主 题 , 这 样 能 够 快速 实施 ,迅速 获得 投资 回报 ,在 取得 实际 效果 的 基础 上 ,再 逐渐 
增加 应 用 主题 ,循序 渐进 ,积累 经 验 , 逐 步 建 成 企业 级 数据 仓库 。 这 也 可 以 说 是 采用 总 线 型 
结构 先 建立 数据 集 市 ,使 所 有 的 数据 集 市 具有 统一 的 维 定义 和 一 致 的 业务 事实 ,这 种 方法 融 
合 了 自 下 而 上 和 自 上 而 下 两 种 设计 方法 的 思想 。 这 种 模型 的 优点 是 查询 速度 快 ,做 报表 也 
快 。 缺 点 是 由 于 存在 大 量 的 预 处 理 , 其 建 模 过 程 相对 来 说 就 比较 慢 ; 当 业 务 问题 发 生变 化 ， 
原来 的 维 不 能 满足 要 求 时 ,需要 增加 新 的 维 ; 由 于 事实 表 的 主 码 由 所 有 维 表 的 主 码 组 成 ,所 
以 这 种 维 的 变动 将 是 非常 复杂 ,非常 耗 时 的 ; 而 且 信 息 不 够 全 面 、 系 统 欠 灵活 数据 匈 余 多 。 


2. 基于 关系 数据 库 的 多 维 数据 建 模 


多 维 数据 模型 以 直观 的 方式 组 织 数 据 , 并 支持 高 性 能 的 数据 访问 。 一 个 多 维 数据 模型 
可 由 多 个 多 维 数据 模式 表示 ,每 一 个 多 维 数据 模式 都 是 由 一 个 事实 表 和 一 组 维 表 组 成 的 。 

多 维 数据 建 模 是 以 维度 为 中 心 的 建 模 ,以 便于 从 多 个 角度 ( 维 ) 分 析 有 关 数 据 ( 度 量 值 )， 
星 型 .雪花 型 和 事实 星座 模式 是 其 主要 的 存在 形式 。 

(1) 星 型 模式 包含 事实 表 和 一 系列 维 表 。 

多 维 模 型 最 常见 的 是 星 型 模式 。 在 星 型 模式 中 .事实 表 居 中 ,多 个 维 表 呈 辐射 状 分 布 于 
其 四 周 , 并 与 事实 表 连 接 ( 如 图 2.6 所 示 )。 

位 于 星 型 中 心 的 实体 是 事实 表 , 是 用 户 最 关 
心 的 基本 实体 和 查询 活动 的 中 心 ,为 数据 仓库 的 
查询 活动 提供 定量 数据 。 位 于 星 型 模式 四 周 的 实 
体 是 维度 实体 ,其 作用 是 限制 和 过 滤 用 户 的 查询 
结果 ,缩小 访问 范围 。 每 个 维 表 都 有 自己 的 属性 ， 
维 表 和 事实 表 通 过 关键 字 相 关联 。 

星 型 模式 虽然 是 一 个 关系 模型 ,但 是 它 不 一 图 2.6 星 型 模式 示意 图 
定 是 一 个 规范 化 的 关系 模型 。 在 星 型 模式 中 , 维 
表 可 能 是 非 规范 化 的 ,这 是 面向 数据 仓库 的 星 型 模式 与 OLTP 系统 中 的 关系 模式 的 基本 
区 别 。 

使 用 星 型 模式 可 以 从 一 定 程度 上 提高 查询 效率 。 因 为 星 型 模式 中 数据 的 组 织 已 经 经 过 
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预 处 理 ,主要 数据 都 在 庞大 的 事实 表 中 ,所 以 查询 主要 是 扫描 事实 表 ,而 不 必 像 OLTP 系统 
那样 通常 需要 连接 多 个 庞大 的 数据 表 , 因 而 查询 访问 效率 较 高 。 由 于 维 表 一 般 都 很 小 ,通常 
可 以 放 在 高 速 缓存 中 ,与 事实 表 作 连接 时 其 速度 较 快 ; 另 一 方面 , 星 型 模式 便于 用 户 理解 ， 
对 于 非 计算 机 专业 的 用 户 , 星 型 模式 比较 直观 ,通过 分 析 星 型 模式 ,很 容易 组 合 出 各 种 查询 。 

在 实际 应 用 中 , 随 着 事实 表 和 维 表 的 增加 和 变化 , 星 型 模式 会 产生 多 种 衍生 模式 ,包括 
雪花 型 模式 和 星座 型 结构 等 。 

(2) 雪花 型 模式 是 星 型 模式 的 变种 ,不 同 的 是 将 某 些 维 表 规 范 化 。 

雪花 型 模式 是 对 星 型 模式 维 表 的 进一步 层次 化 和 规范 化 ,从 而 消除 元 余 的 数据 。 通 过 
最 大 限度 地 减少 数据 存储 量 以 及 把 分 解 后 更 小 的 规范 化 表 联合 在 一 起 以 改善 查询 性 能 。 由 
于 采取 规范 化 的 维 表 , 各 维 表 拥 有 较 低 的 粒度 ,因此 雪花 型 模式 增加 了 应 用 程序 的 灵活 性 。 
但 另 一 方面 ,雪花 型 模式 也 增加 了 用 户 需要 处 理 表 的 数量 ,增加 了 查询 的 复杂 性 ,而 且 用 户 
不 容易 理解 ,有 时 额外 的 连接 将 使 查询 性 能 下 降 。 因 此 在 数据 仓库 系统 中 ,通常 不 推荐 “ 雪 
花 型 模式 ”, 因 为 对 数据 仓库 系统 的 查询 性 能 相对 OLTP 系统 来 说 更 加 被 重视 ,雪花 型 模式 
通常 降低 数据 仓库 系统 的 性 能 ,如 图 2.7 所 示 。 


OE 


图 2.7 雪花 型 模式 示意 图 


雪花 型 模式 的 维 表 是 基于 范式 理论 的 ,是 介 于 第 三 范式 和 星 型 模式 之 间 的 一 种 设计 模 
式 ,通常 是 部 分 数据 组 织 采用 第 三 范式 的 规范 结构 ,部 分 数据 组 织 采用 星 型 模式 的 事实 表 和 
维 表 结 构 。 在 某 些 情况 下 ,雪花 型 模式 的 形成 是 由 于 星 型 模式 在 组 织 数据 时 ,为 减少 维 表层 
次 和 处 理 多 对 多 关系 而 对 数据 表 进 行规 范 化 处 理 后 形成 的 。 

(3) 事实 星座 结构 对 应 的 多 个 事实 表 共 享 维 表 。 

事实 星座 结构 是 多 个 事实 表 共 享 维 表 ,这 种 模式 可 以 看 做 是 星 型 模式 集 ,. 也 叫 多 重 事实 
表 或 称 为 星系 模式 (galaxy schema) 。 


3. 事实 表 、 维 表 及 键 的 设计 


事实 表 和 维 表 是 多 维 建 模 技 术 中 的 两 个 基本 概念 。 事 实 表 是 数据 分 析 所 对 应 的 主要 数 
据 项 ,一 般 是 企业 或 事业 组 织 内 的 某 项 业务 或 某 个 事件 。 事 实 表 中 的 事实 一 般 具有 数据 特 
性 和 可 加 性 ,这 种 特征 对 于 分 析 型 应 用 而 言 是 非常 重要 的 。 在 这 类 应 用 中 ,人 们 所 关心 的 不 
是 单一 的 一 条 记录 ,而 是 关心 汇总 的 、 综 合 性 的 数据 ,因此 ,一 次 性 检索 的 记录 可 能 是 几 百 
条 、 几 千 条 甚至 可 能 几 百 万 条 ,而 且 还 可 能 要 求 按 不 同 的 粒度 汇总 。 事 实 表 中 可 以 存储 不 同 
粒度 的 数据 ,同一 主题 中 不 同 粒度 的 数据 一 般 存 储 在 不 同 的 事实 表 中 。 在 数据 仓库 中 ,对 于 
比较 简单 的 主题 ,一般 一 个 主题 对 应 一 个 事实 表 ; 对 于 比较 复杂 的 分 析 主 题 ,很 可 能 一 个 主 
题 对 应 多 个 事实 表 。 

维 表 中 包含 的 一 般 是 描述 性 的 文本 信息 ,这 些 文本 信息 将 成 为 事实 表 的 检索 条 件 ,如 按 
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地 区 分 类 查询 销售 信息 ,或 按 季度 考察 销售 变化 趋势 等 。 所 以 , 维 表 的 属性 长 度 可 能 出 现 较 
宽 的 情况 ,但 它们 的 数据 行 数 往往 很 小 ,在 数据 仓库 中 占用 的 存储 空间 也 比较 小 。 维 表 中 的 
维 属性 应 该 具体 明确 ,体现 出 维 层 次 的 划分 ,能 够 成 为 分 析 型 查询 的 约束 条 件 ,这 是 数据 仓 
库 与 操作 型 应 用 在 数据 模型 设计 上 的 一 个 不 同 点 。 

维 表 层次 的 级 别 数量 取决 于 查询 的 粒度 。 在 实际 业务 环境 中 ,多 维 数据 模型 一 般 含 有 
4 一 15 个 维 。 在 具体 实施 工作 中 ,一 定 要 根据 企业 的 实际 情况 确定 相应 的 维 。 

在 多 维 模型 中 ,事实 表 的 主键 是 组 合 键 , 维 表 的 主键 是 简单 键 ,事实 表 中 与 维 表 主键 相 
对 应 的 各 个 组 成 部 分 是 外 键 。 事 实 表 通 过 与 各 维 表 相 对 应 的 外 键 值 同 维 表 联 系 在 一 起 。 

维度 表 一 般 由 主键 ,分 类 层次 和 属性 描述 组 成 。 对 于 主键 的 选择 一 般 存在 两 种 观点 : 
一 种 是 采用 自然 键 (natural key), 即 操作 型 业务 系统 使 用 的 具有 一 定 内 置 含义 的 标识 符 ; 
另 一 种 是 采用 代理 键 (surrogate key), 即 由 装载 程序 或 者 数据 库 系统 所 赋予 的 一 个 数值 ,该 
数值 按 顺 序 分 配 ,没有 内 置 含义 但 可 以 作为 一 行 维度 信息 记录 的 唯一 标识 。 

通常 情况 下 ,推荐 采用 代理 键 ,主要 原因 是 代理 键 简化 了 事实 表 与 维度 表 的 主 外 键 关 
系 。 维 度 表 作为 用 户 进入 事实 表 的 入 口 ,承担 着 记录 观察 视角 的 历史 变化 轨迹 的 任务 。 如 
果 以 自然 键 \ 时 间 标 签 或 机 构 代码 联合 起 来 也 可 以 在 逻辑 上 唯一 标识 出 一 个 产品 ,但 如 果 作 
为 主键 , 那 就 意味 着 在 事实 表 中 也 要 加 入 同样 的 外 键 信息 ,而 事实 表 记 录 行 数 是 巨大 的 ,在 
多 个 维度 上 重复 这 样 的 做 法 会 使 事实 表 由 于 列 宽 过 于 膨胀 而 出 现 性 能 或 存储 空间 问题 。 因 
此 ,最 好 的 办 法 是 采用 代理 键 , 即 选择 一 个 只 占用 4 字 节 就 可 以 处 理 20 亿 个 正 整数 的 列 作 
为 维度 表 的 主键 ,这 样 既 解决 了 事实 表 存储 空间 的 浪费 问题 ,又 维持 了 自身 的 独立 和 稳定 。 
这 样 还 有 另 一 个 好 处 ,代理 键 可 以 作为 数据 仓库 系统 与 源 系统 之 间 的 缓冲 。 随 着 企业 的 发 
展 ,生产 系统 中 的 产品 名 称 、 产 品 分 类 、 组 织 机 构 几 乎 不 可 避免 地 会 发 生 调整 ,有 时 甚至 自然 
键 本 身 也 会 发 生变 化 。 就 像 身 份 证 号 码 从 15 位 升 到 18 位 。 如 果 采 用 代理 键 , 这 些 变化 会 
被 屏蔽 在 维度 表 内 ,需要 记录 历史 轨迹 的 就 贴 上 时 间 标 签 , 不 需要 的 就 直接 更 新 掉 ,变化 的 
过 程 不 会 对 事实 表 产生 任何 冲击 。 维 持 业 务 系统 的 自然 键 与 维度 表 代理 键 的 对 照 关 系 , 既 
实现 了 业务 系统 到 数据 仓库 系统 的 映射 ,又 提高 了 数据 仓库 系统 的 抗震 性 。 

事实 表 中 包含 度量 指标 和 连接 到 相关 维度 表 的 一 组 外 键 ,这 组 外 键 的 联合 唯一 标识 了 
一 行事 实数 据 。 我 们 把 构成 事实 表 的 所 有 维度 外 键 的 联合 叫做 逻辑 主键 。 由 于 事实 表 存 在 
多 种 类 型 ,从 粒度 上 看 有 原子 级 和 汇总 级 ; 从 度量 的 可 加 性 上 看 有 完全 可 加 、 半 可 加 和 不 可 
加 类 型 。 在 数据 仓库 逻辑 模型 设计 阶段 ,使 用 逻辑 主键 是 妥当 的 ,这 是 一 个 具有 很 好 的 包容 
性 和 概括 性 的 定义 。 物 理 主键 是 在 具体 的 项 目 场 景 中 能 够 唯一 标识 事实 表 中 一 行 数据 的 列 
的 联合 。 在 数据 仓库 物理 模型 设计 阶段 ,一 般 会 采用 物理 主键 的 概念 。 逻 辑 主键 有 时 是 和 
物理 主键 一 致 的 ,但 并 不 总 是 这 样 。 
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星 型 模式 是 最 流行 的 数据 仓库 导出 数据 层 的 设计 结构 。 星 型 模式 通过 使 用 一 个 包含 主 
题 的 事实 表 (fact table) 和 多 个 包含 事实 的 非 规范 化 描述 的 维度 表 (dimension table) 来 执行 
典型 的 决策 支持 查询 。 一 旦 创建 了 事实 表 , 就 可 以 使 用 OLAP 工具 预先 计算 常用 的 访问 信 
息 。 在 该 模式 的 中 间 是 事实 表 , 周 围 是 次 要 的 表 , 数 据 在 事实 表 中 维护 ,维度 数据 在 维度 表 
中 维护 。 
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维度 表 组 织 数 据 仓库 中 数据 的 分 类 信息 ,例如 时 间 、 产 品 、 地 理 位 置 及 组 织 机 构 等 。 维 
度 用 于 父 层 和 子 层 的 分 层 结构 ,例如 ,地 理 位 置 维 度 可 以 包含 国家 ,城市 等 数据 。 因 此 ,在 该 
维度 表 中 ,维度 由 所 有 的 国家 、 所 有 的 城市 组 成 。 为 了 支持 这 种 分 层 结构 ,在 维度 表 中 需要 
包括 每 一 个 成 员 与 更 高 层次 上 维度 的 关系 。 维 度 关键 字 是 用 于 查询 中 心事 实 表 数 据 的 唯一 
标识 符 。 事 实 表 包 含 了 描述 业务 特定 事件 的 数据 ,例如 银行 业务 或 者 产品 销售 。 事 实 表 还 
包含 了 任何 数据 合计 ,例如 每 一 个 地 区 每 月 的 销售 情况 。 一 般 地 ,事实 表 中 的 数据 是 不 允许 
修改 的 ,新 数据 只 是 简单 地 增加 进去 。 维 度 表 包含 了 用 于 参考 存储 在 事实 表 中 的 数据 ,例如 
产品 描述 、 客 户 姓名 和 地 址 、 供 应 商 信息 等 。 把 特征 信息 和 特定 的 事件 分 开 , 可 以 通过 减少 
在 事实 表 中 扫描 的 数据 量 提高 查询 性 能 。 维 度 表 不 包含 与 事实 表 同 样 多 的 数据 ,维度 数据 
可 以 改变 ,例如 客户 的 地 址 或 者 电话 号 码 改变 了 。 

星 型 模式 的 主要 思想 在 于 将 我 们 关心 的 数据 和 用 于 描述 数据 的 属性 分 隔 开 来 。 下 面 通 
过 一 个 简单 的 “销售 分 析 ” 例 子 来 进一步 理解 星 型 模式 。 

图 2. 8 是 一 个 “销售 分 析 ” 星 型 模式 示意 模型 (ER 图 ) ,包括 如 下 内 容 。 

(1) 维 表 。 

@ 地 区 维 (locations)。 包 括 “ 国 家 一 省 份 一 城市 一 门店 ”4 个 层次 。 

@ 时 间 维 (times)。 包 括 “ 年 度 一 月 份 一 周一 日 ”4 个 层次 。 

@ 产品 维 (products)。 包 括 * 产 品类 别 一 产品 名 称 ” 两 个 层次 。 


(2) 事实 表 。 
销售 分 析 事 实 表 (fact) 。 包 括 销售 数量 和 销售 金额 两 个 度量 。 
产品 维 表 
PK | 产品 编号 |_ 
产品 类 别 
产品 名 称 
销售 分 析 表 地 区 维 表 
PK.FK2 | 时 间 编号 
PK.FK1 | 产品 编号 
时 间 维 表 DR i | 国家 
PK | 时 间 编 号 R 一 一 一 一 一 一 一 + 销售 数量 
王权 销售 金额 
月 份 
月 
旧 
图 2.8” 星 型 模式 示例 
2.5 小 结 


本 章 首先 介绍 了 数据 仓库 的 三 层 数据 结构 及 其 相关 元 数据 : 操作 型 业务 数据 层 、 调 和 
数据 层 (EDW .ODS) 和 导出 数据 层 ( 如 数据 集 市 ) ,数据 仓库 的 数据 特征 与 数据 分 类 : 状态 
数据 与 事件 数据 、 当 前 数据 与 周期 数据 元 数据 等 ; 然后 介绍 了 数据 仓库 的 ETL 过 程 , 其 中 
包括 抽取 清洗, 转换 ,加 载 与 索引 等 ; 最 后 介绍 了 多 维 数据 模型 的 有 关 概 念 、 多 维 数据 模型 
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的 物理 实现 方法 与 多 维 建 模 技术 。 
2.6 习题 

1. 调和 数据 是 存储 在 和 操作 型 数据 存储 中 的 数据 。 

2. 抽取 、 转 换 、 加 载 过 程 的 目的 是 为 决策 支持 应 用 提供 一 个 ” __、 权 威 数据 源 。 因 
此 ,我 们 要 求 ETL 过 程 产生 的 数据 ( 即 调 和 数据 层 ) 是 \ 历 史 的 、 规 范 化 的 .可 理解 
的 .即时 的 和 质量 可 控制 的 。 

3. 数据 抽取 的 两 个 常见 类 型 是 静态 抽取 和 增 量 抽 取 。 静 态 抽取 用 于 , 增 量 抽 
取 用 于 进行 数据 仓库 的 维护 。 

4. 粒度 是 对 数据 仓库 中 数据 的 综合 程度 高 低 的 一 个 衡量 。 粒 度 越 小 ,细节 程度 

,综合 程度 :回答 查询 的 种 类 

5. 使 用 星 型 模式 可 以 从 一 定 程度 上 查询 效率 。 因 为 星 型 模式 中 数据 的 组 织 

已 经 经 过 ,主要 数据 都 在 庞大 的 中 。 


6. 维度 表 一 般 由 主键 .分 类 层次 和 描述 属性 组 成 。 对 于 主键 可 以 选择 两 种 方式 : 一 种 
是 采用 , 另 一 种 是 采用 


7. 雪花 型 模式 是 对 维 表 的 进一步 层次 化 和 规范 化 来 消除 元 余 的 数据 。 
8. 数据 仓库 中 存在 不 同 综合 级 别 的 数据 。 一 般 把 数据 分 成 4 个 级 别 ， ` 当 前 
细节 级 、 [和 高 度 综合 


9. 什么 是 数据 仓库 的 3 层 数据 结构 ? 

10. 什么 是 数据 仓库 的 数据 ETL 过 程 ? 

11. 什么 是 星 型 模式 ? 它 的 特征 是 什么 ? 

12. 为 什么 时 间 总 是 数据 仓库 或 数据 集 市 的 维 ? 
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通过 前 两 章 的 介绍 ,我 们 对 数据 仓库 的 概念 、 体 系 结构 与 存储 结构 `.ETL 
过 程 等 内 容 都 有 了 一 定 的 了 解 .那么 如 何 建立 一 个 数据 仓库 系统 ? 在 实际 工 
作 中 数据 仓库 系统 是 如 何 设计 和 开发 出 来 的 ? 特别 是 在 数据 仓库 创建 以 后 ， 
又 怎样 在 此 基础 上 建立 多 维 数据 模型 ? 这 些 问题 实际 上 属于 数据 仓库 的 实 
践 范畴 ,与 具体 的 应 用 系统 环境 特别 是 所 使 用 的 数据 库 环 境 `. 开 发 工具 甚至 
开发 人 员 都 有 密切 的 关系 。 本 章 以 微软 公司 的 SQL Server 2005 为 应 用 开发 
环境 ,通过 实例 介绍 数据 仓库 的 设计 与 开发 过 程 。 


3.1 数据 仓库 系统 的 设计 与 开发 概述 


3.1.1 建立 数据 仓库 系统 的 步骤 


数据 仓库 系统 的 建立 在 一 定 程度 上 说 ,是 一 个 复杂 甚至 漫长 的 过 程 ， 
因为 数据 仓库 系统 的 开发 涉及 到 源 数据 系统 .数据 仓库 对 应 的 数据 库 系 统 
及 数据 分 析 与 报表 工具 等 诸多 应 用 问题 。 因 此 .数据 仓库 系统 的 创建 不 是 
一 跳 而 就 的 ,将 数据 从 原 有 的 操作 型 业务 环境 移植 到 数据 仓库 环境 本 身 就 
是 一 项 复杂 而 艰巨 的 工作 。 一 般 来 说 ,一 个 数据 仓库 系统 的 建立 需要 经 过 
如 下 步 又 。 

(1) 收集 和 分 析 业 务 需求 。 用 户 需 求 往往 不 确定 ,在 数据 仓库 环境 中 ， 
决策 支持 分 析 人 员 往 往 是 企业 或 事业 组 织 的 中 上 层 管理 人 员 ,他 们 对 决策 
分 析 的 需求 不 能 预先 作出 规范 说 明 。 他 们 对 开发 人 员 说 :“ 让 我 看 看 能 得 
到 什么 ,然后 我 才能 告诉 你 我 真正 需要 什么 ”。 因 此 ,数据 仓库 应 该 在 海量 
的 数据 中 为 用 户 提供 有 用 、 及 时 、 全 面 的 信息 :以 帮助 用 户 作 出 正确 的 
决策 。 

(2) 建立 数据 模型 和 数据 仓库 的 物理 设计 。 通 过 设计 数据 仓库 的 概念 模 
型 .逻辑 模型 和 物理 模型 ,可 以 得 到 企业 或 事业 数据 的 完整 而 清晰 的 描述 信 
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息 。 数 据 仓 库 的 数据 模型 通常 是 面向 主题 建立 的 ,同时 又 为 多 个 面向 应 用 的 数据 源 的 集成 
提供 了 统一 的 标准 。 数 据 仓库 的 核心 内 容 包 括 组 织 的 各 个 主题 域 .主题 域 之 间 的 联系 、 描 述 
主题 的 码 和 属性 组 等 。 

(3) 定义 数据 源 。 也 叫做 定义 记录 系统 (system of records) ,往往 会 形成 一 个 操作 型 数 
据 存储 区 ,数据 仓库 中 的 数据 来 源 于 多 个 已 有 的 操作 型 业务 系统 。 一 方面 ,各 个 系统 的 数据 
都 是 面向 应 用 的 ,不 能 完整 地 描述 企业 中 的 主题 域 ; 另 一 方面 ,多 个 数据 源 的 数据 之 间 存 在 
着 许多 不 一 致 ,如 命名 、 结 构 和 单位 不 一 致 等 ,甚至 数据 的 内 容 也 可 能 不 一 致 。 所 以 必须 在 
已 有 系统 中 定义 记录 系统 。 记 录 系 统 是 一 个 内 容 正确 ,在 多 个 数据 源 间 起 决定 作用 的 操作 
型 数据 源 。 它 的 特点 是 : 数据 最 完整 .最 准确 .最 及 时 ,结构 最 适合 于 数据 仓库 ,并 且 与 外 部 
数据 源 最 为 接近 。 

(4) 选择 数据 仓库 技术 和 平台 。 技 术 和 平台 选 型 对 建设 数据 仓库 来 说 非常 重要 ,而 且 
一 旦 选 定 ,在 数据 仓库 系统 实施 完成 后 将 很 难 改变 ,平台 及 技术 的 切换 成 本 非常 高 ,所 以 选 
型 一 定 要 充分 重视 和 高 度 谨慎 。 

(5) 从 操作 型 数据 库 中 抽取 ,清洗 及 转换 数据 到 数据 仓库 。 本 部 分 内 容 参 见 第 2 章 。 

(6) 选择 访问 和 报表 工具 ,选择 数据 库 连 接 软 件 , 选 择 数 据 分 析 和 数据 展示 软件 。 根 据 
用 户 的 具体 情况 及 其 分 析 需 求 和 数据 量 大 小 等 因素 选择 。 

(7) 更 新 数据 仓库 。 确 定数 据 仓 库 的 更 新 策略 ,开发 或 配置 数据 仓库 更 新 子 系统 ,实现 
数据 仓库 数据 的 自动 更 新 。 
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数据 仓库 系统 的 开发 与 设计 是 一 个 动态 的 反馈 和 循环 过 程 。 一 方面 ,数据 仓库 的 数据 
内 容 、 结 构 、 粒 度 、 分 割 以 及 其 他 物理 设计 根据 用 户 所 返回 的 信息 需要 不 断 地 调整 和 完善 ,以 
提高 系统 的 效率 和 性 能 。 另 一 方面 ,通过 不 断 地 理解 需求 .使 得 最 终 用 户 能 做 出 更 准确 、 更 
有 用 的 决策 分 析 。 

一 个 数据 仓库 系统 包括 两 个 主要 部 分 : 一 是 数据 仓库 数据 库 , 用 于 存储 数据 仓库 的 数 
据 ; 二 是 数据 分 析 应 用 系统 ,用 于 对 数据 仓库 数据 库 中 的 数据 进行 分 析 。 因 此 ,数据 仓库 系 
统 的 设计 也 包括 数据 仓库 数据 库 的 设计 和 数据 仓库 应 用 的 设计 两 个 方面 。 事实 上 ,系统 的 
设计 开发 是 基于 数据 仓库 的 规划 、 需 求 分 析 及 数据 模型 建立 等 前 期 工作 的 ,数据 仓库 系统 在 
经 过 分 析 与 设计 两 个 重要 阶段 后 ,就 会 进入 数据 仓库 系统 的 实施 阶段 ,实施 完成 后 便 转 人 系 
统 维护 阶段 。 在 系统 的 使 用 和 维护 过 程 中 ,用 户 会 提出 新 的 需求 ,同时 也 会 有 新 技术 出 现 ， 
因此 数据 仓库 系统 在 用 户 使 用 评价 和 新 需求 确认 的 基础 上 ,进入 新 一 轮 的 分 析 、 设 计 开发 、 
实施 与 维护 的 循环 。 这 个 开发 与 使 用 过 程 是 一 个 不 断 循环 、 完 善 和 提高 的 过 程 。 在 一 般 情 
况 下 ,一 个 数据 仓库 系统 不 可 能 在 一 个 循环 过 程 中 完成 ,而 是 经 过 多 次 循环 开发 ,每 次 循环 
都 会 为 系统 增加 新 的 功能 ,使 数据 仓库 的 应 用 得 到 新 的 提高 。 图 3. 1 示意 了 这 个 循环 的 开 
发 过 程 ,这 个 过 程 也 叫 数据 仓库 系统 的 生命 周期 。 
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图 3.1 数据 仓库 系统 的 生命 周期 


31.3 建立 数据 仓库 系统 的 思维 模式 
1. 自 项 向 下 (top-down) 


这 种 模式 首先 把 OLTP 数据 通过 ETL 汇集 到 数据 仓库 中 ,然后 再 把 数据 通过 复制 的 
方式 推进 各 个 数据 集 市 中 ,其 优点 如 下 。 

(1) 数据 来 源 固 定 , 可 以 确保 数据 的 完整 性 。 

(2) 数据 格式 与 单位 一 致 ,可 以 确保 跨越 不 同 数据 集 市 进行 分 析 的 正确 性 。 

(3) 数据 集 市 可 以 保证 有 共享 的 字段 。 因 为 都 是 从 数据 仓库 中 分 离 出 来 的 。 


2. 自 底 向 上 (bottom-up) 


这 种 模式 首先 将 OLTP 数据 通过 ETL 汇集 到 数据 集 市 中 ,然后 通过 复制 的 方式 提升 
到 数据 仓库 中 ,其 优点 如 下 。 

(1) 首先 构建 数据 集 市 的 工作 相对 简单 , 易 成 功 。 

(2) 这 种 模式 也 是 实现 快速 数据 传送 的 原型 。 


3.14 数据 仓库 数据 库 的 设计 步骤 


数据 仓库 数据 库 的 设计 如 图 3. 2 所 示 ,主要 工作 包括 收集 、 分 析 和 确认 业务 分 析 需 求 ， 
分 析 和 理解 主题 和 元 数据 、 事 实 及 其 量度 、 粒 度 和 维度 的 选择 与 设计 、 数 据 仓库 的 物理 存储 
方式 的 设计 等 。 
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业务 
面向 用 户 的 需求 需求 


收集 、 分 析 和 确认 
1 ' ， 

i ! 常用 方法 : 信息 包 图 法 ! 
概念 模型 设 让。 一 一 关键 任务 :分析 和 理解 数据 仓库 中 的 主题 | 


将 需求 模型 转 为 关系 模型 
1 常用 方法 : 星 
刘 加 模型 设计 一 关键 任务 : 


虱 乱 扫 祝 委 宣 办 可 好 壬 


由 关系 模型 转 为 存储 模型 
章 i » 
ee 一 | 常用 方法 ， 关 系 表 (通用 数据 库 物理 设计 法 
[gg 细 的 技术 细 订 |。 物理 模型 设计 关键 任务 :物理 数据 库 表 及 其 存储 结构 设 i 


图 3.2 数据 仓库 数据 库 设计 示意 图 


竺 二 


1 
! 
、 


3.2 基于 SQL Server 2005 的 数据 仓库 数据 库 设 计 


SQL Server 2005 集成 了 三 个 服务 来 实现 数据 仓库 系统 的 开发 : SQL Server 2005 
Analysis Services、SQL Server 2005 Integration Services 和 SQL Server 2005 Reporting 
Services, 同 时 还 提供 了 一 个 数据 仓库 与 商业 智能 应 用 系统 的 开发 环境 一 一 SQL Server 
Business Intelligence Development Studio。 它 们 的 关系 如 图 3. 3 所 示 。 


SQL Server Business Intelligence Development Studio 
服务 集成 (SSIS) | 一 一 | 分 析 (SSAS) | 一 一 | 报表 (SSRS) 
作用 数据 抽取 OLAP 自 定义 报表 
数据 整合 数据 挖掘 数据 展现 
从 企业 各 业务 数据 中 为 已 有 数据 建立 模 对 分 析 结 果 提供 类 型 
商业 智能 应 用 | 获取 有 用 信息 ， 实 现 型 ， 分 析 并 找 出 数 多 样 、 美 观 且 适合 
与 业务 流程 的 统一 据 的 内 在 关系 同 需求 的 图 表 和 报告 


图 3.3 MS SQL Server 2005 的 数据 仓库 架构 


(1) SSAS( 分 析 服 务 ) 提 供 了 所 有 业务 数据 的 统一 整合 视图 ,可 以 作为 传统 报表 、 在 线 
分 析 处 理 .关键 性 能 指示 器 (key performance indicators,KPI) 记分 卡 和 数据 挖掘 的 基础 。 
同时 提供 了 一 个 元 数据 模型 以 满足 不 同 需求 。 其 中 的 所 有 多 维 数据 集 和 维度 定义 都 可 从 统 
一 空间 模型 (UDM) 中 查阅 。UDM 是 一 个 中 心 元 数据 库 , 其 中 定义 了 业务 实体 .业务 逻辑 、 
计算 和 度量 ,可 作为 所 有 报表 、 电 子 表格 .OLAP 浏览 器 .KPI 和 分 析 应 用 程序 的 源 来 使 用 。 
在 SQL Server 2005 中 ,关系 数据 库 和 多 维 数据 库 之 间 的 界限 变 得 模糊 。 可 以 将 数据 存储 在 
关系 数据 库 或 多 维 数据 库 中 ,还 可 以 使 用 主动 缓存 功能 ,充分 利用 两 种 数据 库 各 自 的 优点 。 
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(2) SSIS( 集 成 服务 ) 具 有 出 色 的 ETL 和 整合 能 力 ,提供 了 构建 企业 级 ETL 应 用 程序 
所 需 的 功能 和 性 能 ,使 得 组 织 机 构 能 更 加 容易 地 管理 来 自 于 不 同 的 关系 型 和 非 关 系 型 数据 
源 的 数据 。SSIS 是 可 编程 的 .可 嵌入 的 和 可 扩展 的 ,这 些 特 性 使 其 成 为 理想 的 ETL 平台 。 

(3) SSRS( 报 表 服 务 ) 是 一 个 基于 服务 器 的 完整 报告 平台 ,可 创建 ,管理 和 交付 传统 报 
告 和 交互 式 报告 。 它 包括 创建 .分 发 和 管理 报告 所 需 的 一 切 工具 和 信息 。 同 时 ,其 标准 模块 
化 设计 和 应 用 程序 编程 接口 (API) 使 软件 开发 人 员 数据 提供 商 和 企业 能 够 集成 原 有 系统 
或 第 三 方 应 用 程序 中 的 报表 功能 。 

在 SQL Server 2005 中 可 以 安装 示例 数据 库 Adventure Works DW( 数 据 仓库 示例 数据 
库 ) ,其 主要 数据 都 源 于 另 一 示例 数据 库 Adventure Works(OLTP 示例 数据 库 ) 。 

本 节 以 SQL Server 2005 作为 数据 仓库 环境 ,来 讲解 数据 仓库 数据 库 的 设计 过 程 。 示 例 数 
据 是 SQL Server 2005 自 带 的 示例 数据 库 Adventure Works 和 Adventure Works DW 。 


32.1 分 析 组 织 的 业务 状况 及 数据 源 结构 


下 面 以 SQL Server 2005 示例 数据 库 Adventure Works DW 中 所 描述 的 Adventure Works 
Cycles 公司 的 用 户 需求 为 例 ,介绍 系统 需求 收集 与 分 析 过 程 。 有 关 详 细 的 业务 信息 参见 
SQL Server 2005 有 关 数 据 仓库 示例 的 帮助 文档 。 


1. 公司 概况 


Adventure Works Cycles 是 一 家 虚构 的 大 型 跨国 制造 公司 ,经 营 自行 车 及 其 相关 配套 
产品 , 主要 生产 金属 复合 材料 的 自行 车 ,产品 远 销 北美 .欧洲 和 亚洲 市 场 。Adventure 
Works Cycles 公司 总 部 设 在 华盛顿 州 的 伯 瑟 尔 市 ,雇佣 了 500 名 工人 。 此 外 ,在 Adventure 
Works Cycles 市 场 中 还 活跃 着 一 些 地 区 销售 团队 。 

2000 年 , Adventure Works Cycles 购买 了 位 于 墨西哥 的 小 型 生产 厂 Importadores 
Neptuno。Importadores Neptuno 为 Adventure Works Cycles 产品 系列 生产 多 种 关键 子 组 
件 , 这 些 子 组 件 将 被 运送 到 伯 瑟 尔 市 进行 最 后 的 产品 装配 。2001 年 ,Importadores Neptuno 
转型 成 为 专注 于 旅游 登山 车 系列 产品 的 制造 商 和 销售 商 。 

实现 一 个 成 功 的 会 计 年 度 之 后 ,Adventure Works Cycles 现在 希望 通过 以 下 方法 扩大 
市 场 份额 : 专注 于 向 高 端 客 户 提供 产品 .通过 外 部 网 站 扩展 其 产品 的 销售 渠道 .通过 降低 生 
产 成 本 来 削减 其 销售 成 本 。 


2. 原材料 采购 .生产 和 销售 等 环节 的 业务 流程 介绍 


(1) 原材料 采购 与 仓储 业务 流程 。 

在 公司 内 部 由 采购 部 负责 原材料 采购 ,采购 部 门下 设 一 个 经 理 和 多 个 采购 员 。 一 种 原 
材料 有 多 个 供应 商 , 一 个 供应 商 可 以 提供 多 种 原材料 。 原 材料 和 供应 商 之 间 是 多 对 多 的 关 
系 。 每 个 采购 员 负责 多 种 原材料 的 采购 ,一 种 原材料 只 能 由 一 个 采购 员 来 采购 。 采 购 员 和 
商品 之 间 是 一 对 多 的 关系 。 采 购 员 只 需 了 解 原材料 和 供应 商 的 联系 ,而 采购 部 门 经 理 需 要 
管理 员工 ,并 且 还 需要 了 解 原材料 的 库存 情况 ,以 确定 需要 采购 的 商品 并 将 任务 分 配给 每 个 
采购 人 员 。 

公司 为 了 防止 产品 过 分 依赖 于 原材料 价格 ,还 需要 对 原材料 进行 批量 存储 ,因此 设立 仓 
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库 管理 部 门 ,专门 负责 原材料 的 存储 管理 ,仓库 管理 部 门 管理 多 个 仓库 ,下 设 一 个 经 理 和 多 
个 仓库 管理 员 ,每 个 仓库 中 拥有 多 个 仓库 管理 员 ,每 个 管理 员 只 能 在 一 个 仓库 中 进行 工作 。 
仓库 管理 员 需 要 知道 他 所 管理 的 仓库 中 存储 的 原材料 的 种 类 数量、 存储 的 时 间 、 原 材料 的 
保值 期 及 原材料 进入 仓库 和 离开 仓库 的 时 间 等 信息 。 一 种 原材料 可 以 保存 在 多 个 仓库 中 ， 
一 个 仓库 可 以 保存 多 种 原材料 。 仓 库 管 理 部 门 经 理 不 但 需要 处 理 仓 库 管 理 员 需 要 的 数据 ， 
而 且 需 要 知道 仓库 管理 员 的 基本 信息 (例如 仓库 管理 员 的 家 庭 住 址 和 电话 等 ) 。 

(2) 产品 销售 业务 流程 。 

Adventure Works Cycles 的 自行 车 及 其 相关 产品 远 销 北美 .欧洲 和 亚洲 市 场 。 公 司 有 
网 络 销售 和 批发 商 销售 两 种 销售 渠道 ,因此 ,客户 也 分 为 两 类 ,一 类 是 从 在 线 商店 购买 产品 
的 消费 者 ,通常 是 个 人 ; 一 类 是 商店 , 即 从 Adventure Works Cycles 销售 代表 处 购买 产品 后 
进行 转 售 的 零售 店 或 批发 店 。 

对 于 销售 部 门 ,销售 员 关心 的 是 商品 的 信息 , 即 每 种 商品 的 价格 .质量 .颜色 和 规格 等 ， 
以 便 向 顾客 推销 相关 的 产品 。 因 此 ,销售 员 最 需要 的 数据 就 是 商品 的 相关 信息 。 销 售 部 门 
经 理 一 方面 需要 了 解 商品 的 销售 情况 ,以 便 在 某 种 商品 缺 货 的 时 候 通 知 仓储 部 门 运 送 商 品 ; 
另 一 方面 ,销售 部 经 理 还 需要 了 解 每 个 销售 员 的 工作 业绩 ,对 每 个 销售 员 进 行 考核 。 因 此 销 
售 部 门 经 理 需 要 了 解 商品 、 顾 客 和 部 门 员 工 的 情况 。 


3， 对 数据 源 结构 的 分 析 与 理解 


从 上 面 的 分 析 可 以 看 出 ,业务 数据 确实 是 多 维 的 。 不 同 部 门 对 数据 的 需求 不 同 , 同 一 部 
门人 员 对 数据 需求 也 存在 差异 。 如 果 考 虑 数据 需求 的 层次 问题 ,管理 人 员 和 不 同 的 业务 人 
员 对 数据 要 求 的 程度 也 各 不 相同 。 管 理 人 员 可 能 需要 综合 度 较 高 或 较为 概括 的 数据 ,而 业 
务 人 员 需 要 细节 数据 。 

实际 上 ,对 业务 的 理解 是 所 有 信息 系统 建设 过 程 所 需要 的 ,只 不 过 在 设计 数据 仓库 时 需 
要 从 业务 蕴涵 的 数据 视角 来 理解 业务 。 数 据 仓库 是 以 历史 数据 为 基础 的 ,这 一 步 本 质 上 是 
理解 这 些 历 史 数 据 的 来 源 。 

通常 ,操作 型 业务 数据 是 数据 仓库 数据 库 的 来 源 和 基础 ,只 有 对 它 的 内 容 足 够 了 解 和 理 
解 , 才 能 很 好 地 设计 数据 仓库 和 对 数据 进行 ETL 处 理 。 

首先 是 要 了 解数 据 源 (操作 型 业务 数据 ) 的 结构 ,例如 Adventure Works 示例 数据 库 把 
Adventure Works Cycles 公司 的 业务 数据 分 成 5 大 部 分 ,分别 是 表示 人 力 资源 的 Human 
Resources、 表 示人 员 信 息 如 客户 或 供应 商 联 系 人 等 的 Person、 表 示 产 品 信息 的 Production、 
表示 采购 信息 的 Purchasing 和 表示 销售 信息 的 Sales。 

其 次 是 要 明确 数据 的 内 容 . 数 据 内 容 包 括 某 个 业务 领域 的 数据 表 结 构 及 其 主 外 键 关系 ， 
还 包括 各 个 数据 表 的 具体 字段 构成 情况 。Adventure Works 示例 数据 库 的 业务 数据 内 容 简 
述 如 下 。 

(1) 个 人 客户 相关 数据 。 个 人 客户 是 公司 客户 类 型 的 一 大 类 , 即 从 Adventure Works 
Cycles 在 线 商店 购买 产品 的 消费 者 。 若 Sales. Customer 表 的 CustomerType 列 值 为 1, 则 表 
示 客 户 类 型 为 个 人 , 若 为 S 则 为 批发 商 。 与 个 人 客户 相关 的 表 有 5 个 .分别 是 : Person. Contact 
表示 客户 的 联系 方式 ; Sales. Customer 表示 客户 的 类 型 ; Sales. Individual 表示 个 人 客户 的 
具体 信息 ,其 中 Demographics 列 还 以 XML 格式 对 个 人 客户 的 收入 、 爱 好 和 车 辆 数目 等 进 
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行 了 统计 ; 而 对 于 客户 的 订单 信息 则 放 在 Sales. Sales Order Header 和 Sales. Sales Order 


Detail 两 个 表 中 。 


(2) 产品 相关 数据 。Adventure Works Cycles 公司 提供 4 类 产品 ,包括 公司 自己 生产 
的 自行 车 、 自 行车 零 部 件 ( 蔡 换 件 .如 车 轮 、 踏 板 或 刹车 等 部 件 ) ,还 有 从 供应 商 处 购买 来 转 售 


给 客户 的 自行 车 装饰 


和 自行 车 附件 等 。 和 产品 相关 的 表 比 较 多 ,结构 也 较为 复杂 ,产品 相关 


的 数据 内 容 如 表 3. 1 所 示 。 


数据 表 


表 3.1 产品 (production) 相 关 的 表 及 其 数据 内 容 


数据 表 内 容 解 释 


Bill Of Materials 


制造 自行 车 和 自行 车 子 部 件 的 所 有 零 部 件 列表 (BOM 结构 ),Product 
Assembly ID 列表 示 父 级 产品 ( 即 主 产 品 ) ,ComponentID 表示 组 装 用 


的 零件 
Culture 列 出 使 用 了 哪些 语言 来 本 地 化 产品 说 明 
Location 列 出 产品 和 零件 的 库存 位 置 
Product 由 公司 销售 或 用 来 制造 自行 车 和 自行 车 组 件 的 各 种 产品 信息 


Product Category 


产品 分 类 ,例如 自行 车 或 附件 


Product CostHistory 


列 出 不 同时 间 点 的 产品 成 本 


Product Description 


列 出 各 种 语言 的 详细 产品 说 明 


Product Inventory 


按 地 点 统计 的 产品 库存 量 


Product List Price History 列 出 不 同时 间 点 的 产品 价格 

Product Model 与 产品 关联 的 产品 型 号 

Product Model Prod Descripti 

GE OODEE SENP99R | 给 出 产品 型 号 .产品 说 明 及 其 本 地 化 后 的 语言 之 间 的 交叉 引用 


Culture 


Product Photo 


列 出 所 售 产品 的 图 像 


Product Review 


给 出 客户 对 产品 的 评价 


Product Subcategory 


产品 类 别 的 子 类 别 


(3) 原材料 采购 相关 数据 。 采 购 部 门 购买 自行 车 生产 中 需 使 用 的 原材料 和 零件 ,同时 
也 购买 一 些 产品 直接 转 售 ,例如 自行 车 装饰 件 和 自行 车 附件 , 像 水 瓶 和 打气 简 等 。 和 原材料 
采购 相关 的 表 的 数据 内 容 如 表 3. 2 所 示 。 


数据 表 


表 3.2 原材料 采购 (purchasing) 相 关 的 表 及 其 数据 内 容 
数据 表 内 容 


Person. Address 


客户 的 通信 地 址 信息 


Person. Contact 


供应 商 雇 员 的 姓名 ,与 Vendor Contact 表 相 关联 ,将 联系 人 映射 到 供应 商 。 
XML 数据 类 型 的 列 Additional ContactInfo 包含 了 联系 人 的 其 他 联系 方式 ( 手 
机 和 传真 等 ) 


Product Vendor 


将 供应 商 与 其 提供 的 产品 建立 对 应 关系 


了 Purchase Order Detail 


采购 订单 的 明细 信息 .包括 订购 的 产品 数量 和 单价 等 


了 Purchase OrderHeader 


采购 订单 的 头 信息 ,包括 应 付款 总 计 . 订 购 日 期 和 订单 状态 等 。Purchase 
OrderHeader 表 与 Purchase Order Detail 表 构 成 主 一 从 关系 


Ship Method 


用 于 维护 产品 标准 发 货 方法 的 查找 表 。Ship Method ID 列 包含 在 Purchase 
Order Header 表 中 


数据 表 
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续 表 
数据 表 内 容 


Vendor 


供应 商 的 详细 信息 ,例如 供应 商 的 名 称 和 账号 


Vendor Address 


将 客户 链接 到 Address 表 中 的 地 址 信息 。 按 类 型 对 地 址 进行 分 类 ,例如 开票 
地 址 、 家 庭 住 址 和 发 货 地 址 等 。Address Type ID 列 映射 到 Address Type 表 中 


Vendor Contact 


这 是 一 个 关联 表 。 连 接 Contact 和 Vendor 两 个 表 


以 上 对 比较 重要 的 业务 数据 表 进 行 了 解释 ,其 目的 是 提供 一 个 可 供 项 目 参考 的 示例 , 若 
要 完全 理解 业务 数据 ,还 要 对 操作 型 业务 数据 库 中 的 表 结 构 及 表 间 关系 进行 深入 的 理解 。 
这 里 以 原材料 采购 数据 中 的 表 Purchasing. Purchase Order Header 为 例子 分 析 此 表 的 具体 
结构 ,如 表 3. 3 所 示 。 从 后 续 的 ETL 处 理 及 业务 分 析 和 业务 规则 挖掘 等 操作 中 会 发 现 ,对 
这 些 业务 数据 表 的 理解 和 分 析 是 相当 重要 的 。 因 此 ,在 实际 项 目 实 施 中 ,应 该 对 重要 的 业务 
数据 表 进 行 类 似 的 分 析 。 如 表 3. 3 所 示 。 


表 3.3 Purchasing. Purchase Order Header 的 表 结 构 


列 数据 类 型 说 明 
Purchase Order ID int 主键 
Revision Number tinyint 用 于 跟踪 一 段 时 间 内 采购 订单 变化 的 递增 编号 
Status tinyint 订单 状态 : 1= 等 待 批准 ,2= 已 批准 ,3= 已 拒绝 ,4= 完 成 
Employee ID int 创建 采购 订单 的 雇员 。 指 向 Employee. Employee ID 的 外 键 
Vendor ID int 采购 订单 所 采购 的 产品 的 供应 商 。Vendor. Vendor ID 的 外 键 
Ship Method ID int 发 货 方法 ,Ship Method. Ship Method ID 的 外 键 
Order Date datetime 采购 订单 的 创建 日 期 
Ship Date datetime 预计 供应 商 的 发 货 日 期 
Sub Total money 采购 订单 小 计 
Tax Amt money 税额 
Freight money 运费 
Tota 1Due money 应 付款 (SubTotal 十 TaxAmt 十 Freight) 
Modified Date datetime 上 次 更 新 日 期 和 时 间 


322 组 织 需求 调研 ,收集 分 析 需 求 


数据 仓库 应 用 系统 不 同 于 事务 处 理 业务 系统 ,其 数据 分 析 需 求 刚 开始 时 并 不 十 分 明确 ， 
而 数据 仓库 的 数据 来 源 往往 来 自 各 操作 型 业务 数据 库 的 历史 数据 和 当期 数据 ,因此 ,项 目 需 
求 的 收集 与 分 析 需 要 从 历史 数据 与 用 户 需 求 两 个 方面 同时 着 手 , 采 用 “数据 驱动 十 用 户 驱 


动 ” 的 设计 理念 。 


数据 驱动 是 根据 当前 业务 数据 的 基础 和 质量 情况 ,以 数据 源 的 分 析 为 出 发 点 构建 数据 
仓库 。 另 一 方面 ,用 户 驱 动 则 是 根据 用 户 业 务 的 方向 性 需求 ,从 业务 需要 解决 的 具体 问题 出 
发 ,确定 系统 范围 和 需求 框架 ,也 叫 需求 驱动 。 

数据 仓库 的 用 户 一 般 是 企业 或 事业 单位 的 管理 者 ,在 设计 数据 仓库 系统 时 充分 考虑 用 
户 的 分 析 需 求 是 十 分 必要 的 。 同 时 ,由 于 数据 仓库 的 构建 必须 基于 业务 数据 库 等 数据 源 , 数 
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据 源 的 结构 也 是 不 得 不 考虑 的 问题 。 如 图 3.4 所 示 ,常常 采用 “两 头 挤 法 ” 找 出 数据 仓库 系 


统 的 真正 需求 。 
Ey 
驱动 /| 需要 什么 


图 3.4 用 户 驱 动 与 数据 驱动 相 结 合 示 意图 


在 3.2.1 节 的 分 析 和 理解 业务 数据 库 (Adventure Works) 的 过 程 中 明确 了 企业 的 具体 
业务 映射 到 数据 库 系 统 的 细节 ,对 从 现 有 数据 源 中 如 何 获取 企业 数据 仓库 需求 对 应 的 数据 
已 经 心中 有 数 。 现 在 我 们 从 企业 的 各 个 视角 对 此 企业 数据 仓库 的 分 析 需 求 作 进一步 的 分 
析 , 发 现 企业 需要 且 可 以 构造 的 主题 。 

实际 上 ,企业 每 个 部 门 都 有 观察 企业 业务 的 不 同 视角 ,这 是 需求 多 样 性 的 一 个 方面 。 例 
如 ,对 于 Adventure Works Cycles 公司 来 说 ,销售 部 门 .采购 部 门 和 仓库 管理 部 门 等 都 有 相 
应 的 视角 ,尽管 这 些 业务 是 相关 的 ,但 是 对 数据 的 需求 ,特别 是 对 分 析 数 据 的 需求 必然 有 所 
不 同 。 

创建 企业 级 数据 仓库 是 一 个 面向 企业 各 部 门 特别 是 管理 部 门 的 工程 ,但 它 的 需求 在 前 
期 可 能 是 相当 模糊 的 ,因此 ,我 们 应 该 高 度 重视 需求 的 调研 与 分 析 , 尽 量 多 地 挖掘 出 用 户 的 
当前 需求 和 潜在 需求 。 


1. 关于 用 户 需 求 的 调研 


用 户 方 面 ,从 组 织 机 构 的 上 层 开始 交流 是 非常 有 益 的 。 上 层 行政 官员 可 以 提供 许多 令 
人 惊奇 的 有 关 业 务 操作 及 其 希望 从 该 组 织 得 到 的 内 容 。 除 此 之 外 ,还 应 该 包括 负责 数据 仓 
库 项 目 或 有 关 业 务 领 域 的 行政 职员 ,以 及 来 自 相关 业务 领域 的 负责 向 高 级 行政 官员 汇报 的 
主管 经 理 和 为 高 级 行政 人 员 和 主管 经 理 准 备 报告 的 业务 分 析 员 。 

根据 不 同 的 交谈 对 象 , 所 提问 题 也 应 有 所 不 同 。 很 明显 ,针对 高 级 行政 人 员 和 基层 职员 
应 该 有 不 同 的 问题 。 通 常 也 有 些 共性 的 问题 域 ,例如 : 

(1) 他 们 的 工作 成 绩 是 怎样 得 来 的 ? 即 什 么 因素 决定 工作 的 成 功 与 失败 ? 

(2) 工作 所 需 信息 的 分 析 过 程 需 耗费 多 长 时 间 ? 从 这 些 分 析 中 可 做 出 什么 决策 ? 

(3) 信息 分 发 的 方式 是 什么 ? 是 报告 .论文 还 是 电子 邮件 ? 

(4) 怎样 弥补 信息 的 空缺 ? 

(5) 分 析 这 些 数据 需要 哪 一 级 的 详细 程度 ? 

(6) 业务 报表 的 来 源 是 什么 ? 谁 对 报告 的 制定 、 维 护 和 分 发 负责 ? 

对 需求 按照 业务 视角 进行 分 类 以 后 ,可 以 进一步 细 化 需求 的 提问 ,一 般 从 业务 目标 、 当 
前 信息 源 、 涉 及 的 主题 范围 .关键 性 能 指标 和 信息 频率 等 方面 分 别提 问 。 

(1) 业务 目标 : 部 门 职责 和 目标 是 什么 ? 怎样 将 这 些 目 标 融 进 企 业 的 目标 之 中 ? 要 达 
到 这 些 目标 有 哪些 需要 ? 成 功 的 关键 因素 是 什么 ? 集团 公司 实现 这 些 目标 的 障碍 有 哪些 ? 
需要 购买 外 部 数据 吗 ? 从 哪里 购买 ? 

(2) 当前 信息 源 和 日 常 报表 需求 : 在 现 有 的 日 常 报表 过 程 中 ,当前 传递 了 哪些 信息 ? 
从 何 处 获取 这 些 分 析 数 据 ? 现在 是 如 何 加 工 处 理 的 ? 这 些 信息 的 详细 程度 怎样 ? 是 太 详 细 
了 ,还 是 太 粗 略 了 ? 哪些 操作 会 产生 关于 重要 主题 领域 的 数据 和 信息 ? 
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(3) 主题 领域 : 有 关 这 方面 的 问题 可 以 帮助 确定 对 业务 活动 来 说 什么 主题 是 很 重要 
的 。 随 着 用 户 地 位 的 不 同 , 在 他 们 的 数据 领域 中 ,各 种 不 同 的 领域 或 维度 被 明确 地 提出 ,这 
就 使 得 对 信息 的 整合 变 得 容易 了 。 这 些 问 题 集 中 在 数据 仓库 中 的 数据 应 怎样 被 检索 及 用 户 
怎样 分 析 和 筛选 这 些 数据 等 。 关 于 主题 领域 的 问题 如 : 

中 哪些 维度 或 领域 对 数据 的 分 析 是 有 价值 的 ? 这 些 维度 有 固有 的 层次 结构 吗 ? 

@ 做 出 业务 决策 仅仅 需要 当地 的 有 关 信 息 吗 ? 

@ 某 些 产 品 是 否 仅仅 在 某 一 地 区 销售 ? 

(4) 关键 性 能 指标 : 不 同 的 用 户 会 有 不 同 的 看 法 。 例 如 ,部 门 的 绩效 是 怎样 监测 的 ? 
部 门 内 部 提供 哪些 关键 的 指标 ? 

(5) 信息 频率 : 可 以 从 用 户 处 理 信息 的 时 间 灵 人 敏 度 获得 信息 频率 。 如 用 户 需 要 多 长 时 
间 对 数据 更 新 一 次 ”适当 的 时 间 结构 是 什么 ? 在 数据 仓库 中 ,对 信息 有 实时 性 需求 吗 ? 


2. 对 用 户 需求 调研 结果 的 分 析 


在 与 用 户 交流 阶段 ,应 该 确定 数据 仓库 需要 访问 的 有 关 信息 。 用 户 应 该 清晰 地 确定 所 
需 的 信息 。 例 如 ,数据 仓库 的 用 户 需要 得 到 有 关 产 品 收入 的 详细 统计 信息 ,包括 过 去 5 年 中 
的 年 龄 .组 别 . 性 别 .位 置 和 经 济 状 况 等 信息 。 

然后 根据 用 户 的 信息 需求 ,抽取 出 信息 的 度量 值 和 维度 信息 ,例如 对 于 需要 观察 的 产品 
收入 ,可 以 确定 其 度量 指标 和 维度 如 下 。 

(1) 度量 指标 : 包括 产品 销售 的 实际 收入 .产品 销售 的 预算 收入 及 产品 销售 的 估计 
收入 。 

(2) 维度 : 包括 已 经 销售 的 产品 信息 、 销 售 地 点 (位 置信 息 ) 和 顾客 信息 (如 年 龄 组 别 、 
人 性别 .位 置 和 经 济 状 况 ) 等 。 

假定 Adventure Works 的 销售 和 营销 团队 以 及 高 级 管理 人 员 对 数据 分 析 有 如 下 需求 。 

(1) 目前 的 报表 是 静态 的 。 用 户 无 法 通过 交互 方式 探测 报表 中 的 数据 以 获取 更 详细 的 
信息 ,例如 ,他 们 可 以 处 理 Microsoft Office Excel 透视 表 。 虽 然 现 有 的 一 组 预定 义 报 表 足 
以 供 许多 用 户 使 用 ,但 更 高 级 的 用 户 却 需 要 对 数据 库 进 行 直接 查询 访问 ,以 进行 交互 式 查 询 
和 访问 专用 报表 。 

(2) 查询 性 能 差异 很 大 。 例 如 ,有 些 查询 只 需 几 秒 钟 便 可 返回 结果 ,而 另 一 些 查询 需要 
几 分 钟 才 能 返回 结果 。 

(3) 用 户 所 在 的 业务 部 门 不 同 , 其 感 兴 趣 的 数据 视图 也 不 同 。 每 个 组 都 很 难 理解 与 其 
不 相关 的 数据 元 素 。 

(4) 业务 用 户 很 难 构造 一 些 专用 查询 ,以 组 合 两 个 相关 的 信息 集 ( 如 销售 额 和 销售 配 
额 )。 此 类 查询 会 占用 大 量 的 数据 库 空间 ,因此 .公司 要 求 用 户 向 数据 仓库 团队 请 求 跨 主题 
区 域 的 数据 集 。 

(5) 希望 通过 一 个 通用 的 元 数据 层 提 供 统一 的 数据 访问 以 进行 分 析 和 报告 。 

(6) 简化 用 户 的 数据 视图 ,从 而 加 速 交 互 式 查 询 、 预 定义 查询 以 及 预定 义 报表 的 开发 。 

总 之 ,通过 对 历史 数据 和 需求 的 分 析 , 可 以 明确 用 户 正 在 使 用 的 数据 现状 、 他 们 如 何 使 
用 这 些 数据 及 他 们 将 利用 数据 仓库 干什么 。 充 分 的 交流 为 数据 仓库 的 总 体 设计 打下 基础 。 


56 | 
国 据 仓库 与 数据 挖掘 


323 采用 信息 包 图 法 设计 数据 仓库 的 概念 模型 


在 收集 分 析 需 求 并 作 了 详细 的 需求 调研 之 后 ,我 们 对 企业 需求 有 了 一 个 比较 清晰 的 了 
解 ,这 时 可 以 对 数据 仓库 数据 库 的 概念 模型 作 设计 ,通常 采用 面向 主题 的 自 项 而 下 的 设计 方 
法 ,数据 仓库 的 概念 模型 将 面向 主题 ,也 就 是 面向 对 象 .示例 数据 库 中 的 对 象 如 客户 、 产 品 和 
供应 商 等 多 维 信息 。 终 端 用 户 通 过 各 种 维度 来 获取 业务 数据 ,其 中 时 间 是 最 基本 、 最 关键 的 
维度 。 对 于 面向 主题 的 数据 仓库 同 传统 的 数据 库 设 计 一 样 需要 经 历 概 念 模型 设计 、 人 逻辑 模 
型 设计 和 物理 模型 设计 三 个 阶段 (如 表 3.4 所 示 )。 与 之 相对 应 ,数据 仓库 的 设计 方法 分 别 
是 针对 数据 仓库 的 信息 包 图 设计 、 星 型 图 模型 设计 和 物理 数据 模型 设计 ,要 求 如 下 。 

(1) 数据 仓库 的 概念 模型 通常 采用 信息 包 图 法 来 进行 设计 ,要 求 将 信息 包 图 的 5 个 组 
成 部 分 (名 称 ,维度 、 类 别 、 层 次 和 度量 ) 全 面 地 描述 出 来 。 

(2) 数据 仓库 的 逻辑 模型 通常 采用 星 型 图 法 来 进行 设计 ,要 求 将 星 型 图 的 5 类 逻辑 实 
体 ( 度 量 逻辑 实体 .维度 逻辑 实体 ,层次 逻辑 实体 .详细 信息 逻辑 实体 和 类 别 逻 辑 实 体 ) 完 整 
地 描述 出 来 。 

(3) 数据 仓库 的 物理 模型 通常 采用 物理 数据 模型 法 来 进行 设计 ,要 求 将 物理 数据 模型 
的 5 类 表 ( 事 实 表 、 维 表 、 层 次 表 、 详 细 信 息 表 和 类 别 表 ) 详 细 地 描述 出 来 。 


表 3.4 数据 仓库 与 OLTP 数据 库 的 设计 方法 比较 


设计 阶段 数据 仓库 OLTP 数据 库 
概念 模型 信息 包 图 数据 流程 图 
人 逻辑 模型 星 型 图 模型 实体 关系 图 
物理 模型 物理 数据 模型 物理 数据 模型 


在 与 用 户 交流 的 过 程 中 ,上 两 个 节 确 定 了 数据 仓库 所 需要 访问 的 信息 ,这 些 信息 包括 当 
前 的 ,将 来 的 以 及 与 历史 相关 的 数据 。 本 节 将 确认 操作 数据 ,数据 源 以 及 一 些 附加 数据 需 
求 ,建立 信息 包 图 ,进而 确定 数据 仓库 中 的 主题 和 元 数据 ,有 效 地 完成 查询 和 数据 之 间 的 映 
射 , 完 成 概念 数据 模型 的 设计 。 


1. 信息 包 图 法 简介 


由 于 数据 仓库 的 多 维 性 ,利用 传统 的 数据 流 图 进行 需求 分 析 已 不 能 满足 需要 。 因 此 , 数 
据 仓库 的 建 模 包 括 超 立方 体 (hypercube) 法 及 信息 包 图 法 。 

超 立 方 体 法 也 是 采用 自 上 而 下 的 方法 设计 ,其 步骤 如 下 。 

(1) 确定 模型 中 需要 抓 住 的 业务 过 程 .例如 销售 活动 或 销售 过 程 。 

(2) 确定 需要 捕获 的 度量 值 ,例如 销售 数量 或 成 本 。 

(3) 确定 数据 的 粒度 , 即 需要 捕获 的 最 低 一 级 的 详细 信息 。 

由 于 超 立 方 体 法 在 表现 上 缺乏 直观 性 ,尤其 是 当 维度 超出 三 维 后 ,数据 的 采集 和 表示 都 
比较 困难 ,这 时 可 以 采用 信息 包 图 法 在 平面 上 展开 超 立 方 体 , 即 用 二 维 表 格 反映 多 维特 征 。 
信息 包 图 提供 了 一 个 多 维 空间 来 建立 信息 模型 .并且 提供 了 超 立 方 体 的 可 视 化 表示 。 

信息 包 图 定义 主题 内 容 和 主要 性 能 指标 之 间 的 关系 ,其 目标 就 是 在 概念 层 满足 用 户 需 
求 。 信 息 包 图 拥有 三 个 重要 对 象 : 度量) 指标、 维度 和 类 别 。 利 用 信息 包 图 设计 概念 模型 
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就 是 要 确定 这 三 个 方面 的 内 容 。 

(1) 确定 指标 。( 度 量 ) 指 标 表明 在 维度 空间 衡量 业务 信息 的 一 种 方法 ,是 访问 数据 仓 
库 的 关键 所 在 ,是 用 户 最 关心 的 信息 。 成 功 的 信息 包 可 以 保证 用 户 从 信息 包 中 获取 需要 的 
各 个 性 能 指标 参数 。 

(2) 确定 维度 。 维 度 提供 了 用 户 访问 数据 仓库 信息 的 途径 ,对 应 超 立 方 体 的 每 一 面 ,位 
于 信息 包 图 第 一 行 的 每 一 个 栏目 中 。 

(3) 确定 类 别 。 类 别 是 在 一 个 维度 内 为 了 提供 详细 分 类 而 定义 的 ,其 成 员 是 为 了 辨别 
和 区 分 特定 数据 而 设 , 它 说 明 一 个 维度 包含 的 详细 信息 ,一 个 维度 内 最 底层 的 可 用 分 类 又 称 
为 详细 类 别 。 

信息 包 图 法 也 叫 用 户 信息 需求 表 , 就 是 在 一 张 平 面 表格 上 描述 元 素 的 多 维 性 ,其 中 的 每 
一 个 维度 用 平面 表格 的 一 列表 示 , 例 如 时 间 、 地 点 、 产 品 和 顾客 等 。 而 细 化 本 列 的 对 象 就 是 
类 别 ,例如 时 间 维 度 的 类 别 可 以 细 化 到 年 .月 .日 ,甚至 小 时 。 平 面 表格 的 最 后 一 行 (代表 超 
立方 体 中 的 单元 格 ) 即 为 指标 度量 值 ,例如 , 某 年 在 某 销售 点 的 某 类 产品 的 实际 销售 额 。 创 
建 信息 包 图 时 需要 确定 最 高 层 和 最 低层 的 信息 需求 ,以 便 最 终 设计 出 包含 各 个 层次 需要 的 
数据 仓库 。 

对 较 复 杂 的 业务 进行 需求 分 析 时 ,有 时 一 张 信 息 包 图 不 能 反映 所 有 情况 ,需要 设计 多 张 
不 同 的 信息 包 图 来 满足 全 部 需求 ,此 时 应 保证 多 个 信息 包 图 中 出 现 的 维度 信息 和 类 别 信息 
完全 一 致 。 

总 之 ,信息 包 图 法 是 一 种 自 上 而 下 的 数据 建 模 方法 , 即 从 用 户 的 观点 开始 设计 (用 户 的 
观点 是 通过 与 用 户 交流 得 到 的 ), 站 在 管理 者 的 角度 把 焦点 集中 在 企业 的 一 个 或 几 个 主题 
上 ,着重 分 析 主 题 所 涉及 数据 的 多 维特 性 ,这 种 自 上 而 下 的 方法 几乎 考虑 了 所 有 的 信息 源 ， 
以 及 这 些 信 息 源 影响 业务 活动 的 方式 。 整 个 数据 仓库 数据 库 的 设计 过 程 分 为 如 下 4 个 
阶段 。 

(1) 采用 自 项 向 下 的 方法 对 业务 数据 的 多 维特 性 进行 分 析 , 用 信息 包 图 表示 维度 和 类 
别 之 间 的 传递 和 映射 关系 ,建立 概念 模型 。 其 中 ,类 别 是 按 一 定 的 标准 对 一 个 维度 的 分 类 划 
分 ,如 产品 可 按 颜色 、` 质 地 .产地 和 销 地 等 不 同 标准 分 类 。 

(2) 对 企业 的 大 量 数值 指标 实体 数据 进行 筛选 ,提取 出 可 利用 的 中 心 度量 指标 (也 称 为 
关键 性 能 指标 和 关键 业务 度量 值 ) ,例如 产品 收入 产品 成 本 或 设备 运行 时 间 等 。 

(3) 在 信息 包 图 的 基础 上 构造 星 型 图 ,对 其 中 的 详细 类 别 实体 进行 分 析 , 进 一 步 扩展 为 
雪花 图 (可 选 ) ,建立 逻辑 模型 。 

(4) 在 星 型 图 或 雪花 图 的 基础 上 ,根据 所 定义 的 数据 标准 进一步 对 实体 、 键 属性 、 非 键 
属性 .数据 容量 和 更 新 频率 等 进行 定义 ,完成 物理 数据 模型 的 设计 。 


2. 信息 包 图 的 建立 


利用 信息 包 图 可 以 完成 以 下 工作 。 

(1) 定义 业务 中 涉及 的 共同 主题 范围 .例如 时 间 、 区 域 .产品 和 客户 等 。 

(2) 设计 可 以 跟踪 的 、 确 定 一 个 业务 事件 怎样 被 运行 和 完成 的 关键 业务 指标 。 
(3) 决定 数据 怎样 被 传递 给 数据 仓库 的 用 户 。 

(4) 确定 用 户 怎样 按 层次 聚合 和 移动 数据 。 
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(5) 确定 在 给 定 的 用 户 分 析 或 查询 中 实际 包含 了 多 少数 据 。 

(6) 定义 怎样 访问 数据 .估计 数据 仓库 大 小 、 确 定数 据 仓 库 里 数据 的 更 新 频率 。 

下 面 以 Adventure Works DW 示例 数据 仓库 中 的 Adventure Works Cycles 公司 的 销 
售 情况 为 例 说 明 信 息 包 图 的 制作 。 通 过 对 Adventure Works Cycles 公司 近年 来 销售 情况 
的 进一步 了 解 和 分 析 , 可 以 得 到 如 下 结论 。 

(1) 获取 各 个 业务 部 门 对 业务 数据 的 多 维特 性 分 析 结 果 ,确定 影响 销售 额 的 维度 ,包括 
时 间 、 区 域 .产品 和 客户 等 维度 。 

(2) 对 每 个 维度 进行 分 析 , 确 定 维度 与 类 别 之 间 的 传递 和 映射 关系 ,如 在 Adventure 
Works 业务 数据 库 中 ,时 间 维 有 年 度 、 季 度 、 月 和 日 等 级 别 ,而 区 域 分 为 国家 、 省 州 、 城 市 和 
具体 的 销售 点 。 

(3) 确定 用 户 需 要 的 度量 指标 体系 ,这 里 以 销售 情况 作为 事实 依据 确定 的 销售 相关 指 
标 包 括 实际 销售 额 \ 计 划 销 售 额 和 计划 完成 率 等 。 

有 了 以 上 的 分 析 ,就 可 以 画 出 销售 分 析 的 信息 包 图 ,如 图 3. 5 所 示 。 此 信息 包 图 以 销售 
分 析 为 主题 ,归纳 事实 和 指标 ,归纳 维度 和 层次 ,确定 数据 的 粒度 和 类 别 。 


维度 一 信息 包 图 : 销售 分 析 

时 间 维 区 域 维 产品 维 客户 维 广告 维 ( 待 用 ) 
类 | 年度 (5) 国家 (10) 产品 类 别 (500) | 年 龄 分 组 (7) | 广告 费 分 组 (5) 
别 | 季度 (20) 省 州 (100) “| 产品 名 称 (9000) | 收入 分 组 (8) 
月 (60) 城市 (500) 信用 组 (2) 

日 (1800) | 销售 点 (8000) 


度量 指标 : 实际 销售 额 ,计划 销售 额 \ 计 划 完 成 率 
图 3.5 销售 分 析 的 信息 包 示 意图 


图 3. 5 仅 为 示意 图 ,图 中 的 第 一 行 表 示 各 个 维度 ,每 一 列表 示 不 同 维度 的 类 别 ,其 中 括 
号 内 的 数字 表示 各 类 别 的 数目 (这 里 的 数字 仅 为 示意 ) 。 通 常 一 个 维度 的 类 别 种 类 不 能 太 
多 ,建议 一 个 维度 的 类 别 数 不 超 过 7, 这 将 有 助 于 用 户 检 索 和 理解 数据 ,提高 数据 的 可 利用 
性 。 在 指标 栏 里 ,定义 了 三 种 度量 指标 , 即 实际 销售 额 . 计 划 销 售 额 和 计划 完成 率 , 并 且 以 这 
三 个 指标 为 中 心 展开 分 析 。 其 他 业务 分 析 需 求 的 信息 包 图 也 可 采用 类 似 的 方法 。 


3. 设计 基于 主题 域 的 概念 模型 


通过 信息 包 图 实际 上 确定 了 数据 仓库 的 主题 和 大 部 分 元 数据 。 

所 谓 主 题 (subject) ,是 指 在 较 高 层次 上 将 业务 数据 进行 综合 、 归 类 和 分 析 利 用 的 一 个 
抽象 概念 ,每 一 个 主题 基本 对 应 业务 的 一 个 分 析 领 域 。 如 在 前 面 信息 包 图 示例 中 ,“ 销 售 分 
析 ” 就 是 一 个 分 析 领 域 ,也 称 为 一 个 应 用 主题 。 

面向 主题 的 数据 组 织 方式 ,就 是 在 较 高 层次 上 对 分 析 对 象 数 据 的 一 个 完整 并 且 一 致 的 
描述 ,能 刻画 分 析 对 象 所 涉及 的 各 项 业务 数据 ,以 及 数据 之 间 的 联系 。 与 OLTP 数据 库 面 
向 事务 处 理应 用 进行 数据 组 织 的 特点 不 同 , 数 据 仓 库 中 的 数据 是 面向 主题 组 织 的 。 如 一 个 
数据 仓库 系统 涉及 的 主题 可 能 是 产品 销售 分 析 、 货 物 发 运 分 析 等 。 

主题 是 根据 分 析 需 求 确定 的 。 如 在 生产 企业 中 ,对 于 材料 供应 ,在 OLTP 系统 中 ,我 们 
往往 关心 的 是 怎样 更 方便 和 更 快捷 地 进行 材料 供应 的 业务 处 理 ; 而 在 作 分 析 处 理 时 ,我 们 
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就 更 关心 材料 的 不 同 采购 渠道 和 材料 供应 是 否 及 时 、 材 料 质量 状况 等 。 典 型 的 主题 领域 包 
括 顾客 、 产 品 、 订 单 和 财务 或 是 其 他 某 项 活动 。 

主题 域 是 对 某 个 主题 进行 分 析 后 确定 的 主题 边界 。 在 大 多 数 数据 仓库 的 设计 过 程 中 ， 
都 有 一 个 主题 域 的 选择 过 程 。 主 题 域 的 确定 通常 由 最 终 用 户 和 数据 仓库 的 设计 人 员 共 同 完 
成 。 例 如 ,对 于 Adventure Works Cycle 公司 的 管理 层 可 能 需要 分 析 的 主题 包括 供应 商 、 商 
品 、 客 户 和 仓库 等 主题 。 其 中 商品 主题 的 内 容 包 括 记 录 超 市 商品 的 采购 情况 .商品 的 销售 情 
况 和 商品 的 库存 情况 等 ; 客户 主题 包括 的 内 容 可 能 有 客户 购买 商品 的 情况 ; 仓库 主题 包括 
仓库 中 商品 的 存储 情况 和 仓库 的 管理 情况 等 。 确 定 主题 边界 (主题 域 ) 实 际 上 是 进一步 理解 
业务 关系 ,因此 在 确定 分 析 主 题 后 ,还 需要 对 这 些 主题 进行 细 化 以 获取 每 一 个 主题 应 有 的 边 
界 。 例 如 ,根据 分 析 需 求 所 确定 的 Adventure Works Cycle 公司 的 分 析 主 题 及 主题 域 结构 
如 图 3.6 所 示 。 


! 供应 商 ID 
| 有 关 信息 


库 管 员 


图 3.6 主题 及 主题 域 的 划分 


由 于 数据 仓库 的 设计 是 一 个 不 断 改 进 和 完善 的 螺旋 式 发 展 过 程 ,在 刚 开始 时 选择 部 分 
比较 重要 的 主题 作为 数据 仓库 设计 的 起 点 是 很 有 必要 的 。 例 如 ,在 Adventure Works DW 
数据 仓库 的 概念 模型 设计 中 ,在 对 需求 进行 分 析 后 ,认识 到 “商品 ”主题 既是 一 个 销售 型 企业 
最 基本 的 业务 对 象 ,又 是 进行 决策 分 析 的 主要 领域 ,通过 “商品 "主题 的 建立 ,经 营 者 就 可 以 
对 整个 企业 的 经 营 状况 有 较 全 面 的 了 解 。 先 实施 “商品 "主题 可 以 尽快 地 满足 企业 管理 人 员 
建立 数据 仓库 的 最 初 要 求 。 通 过 将 主题 边界 的 划分 应 用 到 已 经 得 到 的 关系 模型 上 ,即将 主 
题 域 的 划分 和 事务 处 理 数据 库 中 的 表 结 合 起 来 , 便 能 形成 原始 的 概念 模型 ,例如 在 上 述 主题 
示例 中 ,商品 主题 可 能 涵盖 的 关系 表 有 商品 表 、 供 应 关系 表 、 购 买 关 系 表 和 仓储 关系 表 ; 仓 
库 主题 可 能 涵盖 的 关系 表 有 仓库 关系 表 、 仓 库 表 、 仓 库 管理 关系 表 和 管理 员 表 。 把 这 些 表 的 
键 和 字段 联系 起 来 ,就 可 以 形成 图 3.7 所 示 的 原始 概念 模型 (实体 关系 图 ) 。 
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ER 商品 主题 
供应 商 主题 0 二 -顾客 主题 _-_、 
| , 人 ”购买 关 系 表 | ， 
供应 商 表 商品 表 | | 顾客 | 
| 供应 商 ID 商品 ID | | 二 
! | 联系 电话 商品 名 称 | | | 
| 联系 人 商品 类 型 | ! | 全 沽 全 | 
| | 地 址 商品 规格 | | | 
\ 1 商品 质量 | | | | 
和 和 全 和 和 下 我 认 各 生物 光 守 午 移 全 光 和 人 
| 人 仓 依 关系 表 在 亩 主题 
| | [仓库 ID(FK) | | 
| ， | 商品 ID(FK) | | 
1 ! 仓储 数量 ! | 
! 仓库 库 管 关系 表 | 
ee 仓库 管理 员 
| 委员 ID(FK) 库 管 员 ID | | 
;| 仓库 地 址 
! | 仓库 电话 住址 
联系 电话 | 
\ ' 


图 3.7 划分 了 主题 域 的 原始 概念 模型 (ER 图 ) 


324 利用 星 型 图 设计 数据 仓库 的 逻辑 模型 
1. 根据 分 析 需 求 与 信息 包 图 制作 星 型 图 或 雪花 图 


在 传统 的 数据 库 逻 辑 模型 设计 中 ,根据 需求 分 析 阶 段 获得 的 数据 流 图 ,利用 实体 关系 图 
(ER 模型 ) 将 概念 模型 转换 为 逻辑 模型 。 数 据 仓 库 系 统 通常 是 在 信息 包 图 的 基础 上 构建 星 
型 图 ,进一步 完成 逻辑 模型 设计 。 

星 型 图 因 其 外 观 似 五 角 星 而 得 名 , 它 支持 从 业务 决策 者 的 角度 定义 数据 实体 ,满足 面向 
主题 数据 仓库 设计 的 需要 ,而 信息 包 图 又 为 星 型 图 的 设计 提供 了 完备 的 概念 基础 。 同 信息 
包 图 中 的 三 个 对 象 相 对 应 , 星 型 图 拥有 三 个 逻辑 实体 , 即 维度 .指标 和 类 别 。 

位 于 星 型 图 中 心 的 实体 是 (度量 ) 指 标 实体 ,对 应 信息 包 图 中 的 指标 对 象 , 是 用 户 最 关心 
的 基本 实体 和 查询 活动 的 中 心 ,为 用 户 的 业务 活动 提供 定量 数据 。 每 个 指标 实体 代表 一 系 
列 相关 事实 ,完成 一 项 指定 的 功能 ,在 一 般 情况 下 代表 一 个 现实 事务 的 综合 水 平 ,仅仅 与 每 
个 相关 维度 的 一 个 点 对 应 。 位 于 星 型 图 星 角 上 的 实体 是 维度 实体 ,对 应 信息 包 图 中 的 维度 
对 象 ,其 作用 是 限制 用 户 的 查询 结果 .将 数据 过 滤 使 得 从 指标 实体 查询 返回 较 少 的 行 ,从 而 
缩小 访问 范围 。 另 一 个 实体 是 详细 类 别 实体 , 它 对 应 信息 包 图 中 的 类 别 对 象 。 一 个 维度 内 
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的 每 个 单元 就 是 一 个 类 别 ,代表 该 维度 内 的 一 个 独立 层次 , 它 要 求 更 加 详细 的 信息 才能 满足 
用 户 的 需要 ,与 相应 的 事务 处 理 业务 数 据 库 结构 产生 映射 。 

因此 ,从 信息 包 图 转换 成 星 型 图 ,需要 定义 如 下 三 个 实体 。 

(1) (度量 ) 指 标 实 体 。 使 用 每 一 个 指标 ,同时 确定 是 否 存储 经 过 计算 的 指标 。 

(2) 维度 实体 。 一 个 维度 实体 对 应 指标 实体 中 的 多 个 指标 。 用 户 利用 维度 实体 来 访问 
指标 实体 ,一 个 维度 实体 对 应 信息 包 图 中 的 一 个 列 。 

(3) 详细 类 别 实体 。 对 应 现实 世界 的 某 一 实体 。 

在 星 型 图 中 ,用 户 通过 维度 实体 获得 指标 实体 数据 ,其 中 指标 实体 与 维度 实体 间 的 联系 
通过 每 个 维度 中 的 最 低 一 层 的 详细 类 别 实体 连接 。 

当 多 个 信息 包 图 转换 成 星 型 图 时 ,可 能 出 现 维度 实体 的 交叉 重 倒 ,为 了 保证 实体 的 一 致 
性 需要 进行 统一 处 理 ,确定 它们 是 同一 实体 在 不 同 层次 上 的 数据 反映 ,还 是 两 个 不 同 的 实 
体 。 当 多 个 维度 实体 相关 并 且 存 在 共性 时 ,可 能 需要 进行 合并 处 理 。 


< 于 a 
< > 


图 3.8 Adventure Works Cycles 公司 销售 分 析 星 型 图 


在 3.2.3 节 的 示例 信息 包 图 (图 3. 5) 基 础 上 构造 一 个 星 型 图 ,如 图 3. 8 所 示 。 根 据 实 
际 业 务 需 求 , 可 以 把 产品 类 别 实体 连接 到 星 型 图 中 .就 可 以 进一步 得 到 企业 数据 仓库 的 雪花 
模型 。 如 Adventure Works 业务 示例 数据 库 中 ,通过 表 Product Category、Product 
Subcategory 和 Product 对 产品 进行 了 层次 分 类 ,把 这 三 个 表 对 应 的 实体 挂 到 图 3. 8 的 星 型 
图 中 , 便 形成 了 如 图 3. 9 所 示 的 雪花 图 。 


A 过 


图 3.9 在 星 型 图 基础 上 构建 的 雪花 型 模式 图 
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2. 确定 主题 的 属性 组 


根据 概念 模型 中 定义 的 主题 及 主题 域 ,可 以 进一步 确定 在 主题 的 逻辑 关系 模式 中 包含 
所 有 的 属性 及 与 系统 相关 的 行为 。 数 据 仓 库 中 数据 存储 的 逻辑 结构 也 需要 在 逻辑 模型 的 设 
计 阶 段 完成 定义 ,需要 给 主题 增加 属性 组 和 其 他 所 需 信 息 。 以 Adventure Works Cycle 公 
司 数据 仓库 为 例 , 在 “商品 “销售 ”和 “客户 ”主题 上 增加 能 进一步 说 明 主 题 的 属性 组 (如 
表 3.5 所 示 )。 

表 3.5 主题 的 详细 描述 
主题 名 公共 键 属 性 组 
基本 信息 : 商品 号 .商品 名 .类 型 和 颜色 等 
商品 商品 号 采购 信息 : 商品 号 、 应 商号 ,供应 价 、 供 应 日 期 和 供应 量 等 


库存 信息 : 商品 号 ,库房 号 .库存 量 和 日 期 等 
基本 信息 : 销售 单 号 、 销 售 地 址 等 


i 单 号 

人 人 销售 信息 : 客户 号 .商品 号 .销售 价 .销售 量 和 销售 时 间 等 

有 基本 信息 : 客户 号 .客户 名 ,性 别 \, 年 龄 .文化 程度 ,住址 和 电话 等 
经 济 信息 : 客户 号 ,年 收入 和 家 庭 总 收入 等 

3. 事实 表 及 其 特征 


度量 是 客户 发 生 事件 或 动作 的 事实 记录 ,例如 客户 打 电 话 , 可 能 选择 的 度量 有 通话 时 
长 通话 次 数 和 通话 费用 等 ; 客户 购买 商品 ,可 能 选择 的 度量 有 购买 的 次 数 、 购 买 商品 的 金 
额 和 购买 商品 的 数量 等 。 度 量变 量 的 取 值 可 以 是 离散 的 数值 ,也 可 以 是 连续 的 数值 。 例 如 ， 
客户 通话 次 数 是 离散 的 数值 ,而 客户 购买 商品 的 金额 是 连续 的 数值 。 度 量变 量 也 可 以 在 某 
个 元 素 集合 内 取 值 。 例 如 ,客户 对 公司 服务 质量 的 评定 可 以 是 “ 优 ?“ 良 ?“ 中 ”和 ”* 差 中 的 
一 个 。 业 务 事实 是 对 某 个 特定 事件 的 度量 ,是 各 个 维度 的 交点 。 

事实 表 则 是 在 星 型 模式 或 雪花 型 模式 中 用 来 记录 业务 事实 并 作 相 应 指标 统计 的 表 , 同 
维 表 相 比 ,事实 表 具 有 如 下 特征 。 

(1) 记录 数量 很 多 ,因此 事实 表 应 当 尽量 减 小 一 条 记录 的 长 度 , 避 免 事实 表 过 大 而 难于 
管理 。 
(2) 事实 表 中 除了 度量 变量 外 ,其 他 字段 都 是 维 表 或 者 中 间 表 (对 于 雪花 型 模式 ) 的 关 
键 字 (外 键 ) 。 

(3) 如 果 事 实 相关 的 维度 很 多 , 则 事实 表 的 字段 数 也 会 比较 多 。 


4. 事实 表 的 类 型 与 设计 


事实 表 是 星 型 模式 或 类 似 结构 的 核心 ,包含 了 基本 业务 事务 的 详细 信息 。 事 实 表 一 般 
包含 两 个 部 分 : 一 部 分 是 由 主键 和 外 键 所 组 成 的 键 部 分 ; 另 一 部 分 是 用 户 希 望 在 数据 仓库 
中 了 解 的 数值 指标 ,这 些 指标 是 为 每 个 派生 出 来 的 键 而 定义 和 计算 的 , 称 为 事实 或 度量 指 
标 。 由 于 事实 是 一 种 度量 ,所 以 事实 表 中 的 这 种 指标 往往 需要 具有 数值 化 和 可 加 性 (或 可 平 
均等 ) 的 特征 。 但 是 在 事实 表 中 ,只 有 那些 具有 完全 可 加 性 的 事实 才能 根据 所 有 的 维度 进行 
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累加 而 具有 意义 。 而 事实 表 有 一 些 事实 表示 的 是 某 种 强度 ,这 类 事实 就 不 具有 完全 加 法 性 ， 
而 是 一 种 半 加 法 性 。 例 如 ,账目 余 款 反映 的 是 某 个 时 间 点 的 数据 , 它 可 以 按照 地 点 和 商品 等 
大 多 数 维 度 进行 累加 ,但 是 对 于 时 间 维 度 则 例外 ,将 一 年 中 每 个 月 的 账目 余 款 进行 累加 是 毫 
无 意义 的 ,而 决策 者 则 可 能 需要 了 解 所 有 地 区 和 所 有 商品 账目 余 款 的 累加 值 。 在 事实 表 中 
还 有 一 些 事实 是 非 加 法 性 的 , 即 这 些 事实 具有 对 事实 的 描述 特性 ,在 这 种 情况 下 一 般 要 将 这 
些 非 加 法 性 事实 转移 到 维度 表 中 。 

按照 事实 表 中 度量 的 可 加 性 情况 ,可 以 把 事实 表 及 其 包含 的 事实 分 为 如 下 4 种 类 型 。 

(1) 事务 事实 。 以 组 织 事件 的 单一 事务 为 基础 ,通常 只 包含 事实 的 次 数 。 例 如 银行 的 
ATM 提 款 机 的 提 款 次 数 ,使 用 某 种 服务 的 次 数 等 。 

(2) 快照 事实 。 以 组 织 在 某 一 特定 时 间 的 特殊 状态 为 基础 。 也 就 是 只 有 在 某 一 段 时 间 
内 才 出 现 的 结果 。 

(3) 线性 项 目 事实 。 这 类 事实 通常 用 来 储存 关于 企业 组 织 经 营 项 目的 详细 信息 。 包 括 
表现 与 企业 相关 的 个 别 线性 项 目的 所 有 度量 条 件 , 如 销售 数量 销售 金额 .成 本 和 运费 等 数 
值 数据 ,也 就 是 关键 性 能 指标 。 此 类 事实 运用 范围 广 , 如 采购 .销售 和 库存 等 。 

(4) 事件 事实 。 通 常 表 示 事 件 发 生 与 否 及 一 些 非 事实 本 身 具 备 的 细节 。 它 所 表现 的 是 
一 个 事件 发 生 后 的 状态 变化 。 如 哪些 产品 在 促销 期 间 内 没有 卖 出 (有 还 是 没有 ) 。 

在 事实 表 模 型 的 设计 中 还 需要 注意 到 派生 事实 。 派 生 事实 主要 有 两 种 ,一 种 是 可 以 用 
同一 事实 表 中 的 其 他 事实 计算 得 到 ,例如 销售 行为 中 的 商品 销售 均 价 可 以 用 商品 的 销售 总 
金额 和 销售 数量 计算 得 到 ,对 于 这 些 派 生 事实 一 般 不 保留 在 事实 表 中 ; 另 一 种 是 非 加 法 性 
事实 ,例如 各 种 商品 的 利润 率 等 各 种 比率 。 

在 事实 表 模 型 的 设计 中 必须 要 分 析 和 确定 事实 表 中 的 这 些 事实 特性 ,可 能 需要 经 过 多 
次 反复 来 确定 。 首 先 ,通过 调查 确定 所 有 可 能 的 基本 事实 和 派生 事实 ; 然后 ,对 所 有 的 事实 
按照 功能 或 某 种 方式 进行 排序 ,以 删除 重复 的 事实 ; 接着 ,确认 那些 基于 不 同 准则 但 是 有 相 
同性 质 的 派生 事实 ,例如 公司 门市 销售 总 额 与 地 区 销售 总 额 虽 由 于 维度 的 不 同 而 被 定义 为 
不 同 的 事实 ,但 实际 计算 方法 是 一 样 的 ; 最 后 ,再 一 次 确定 事实 表 模型 ,在 确认 中 要 检查 所 
有 的 计算 派生 事实 的 基本 事实 是 否 已 经 包含 在 模型 中 ,并且 与 用 户 取 得 一 致 。 

在 设计 事实 表 时 ,一 定 要 注意 使 事实 表 尽 可 能 地 小 ,因为 过 于 庞大 的 事实 表 在 表 的 处 
理 , 备 份 和 恢复 及 用 户 的 查询 等 方面 需要 较 长 的 时 间 。 在 实际 设计 时 ,可 以 利用 减少 列 的 数 
量 、 降 低 每 一 列 的 大 小 和 把 历史 数据 归档 到 单独 的 历史 事实 表 中 等 方法 来 降低 事实 表 的 大 
小 。 另 外 ,在 事实 表 中 还 要 解决 好 数据 的 精度 和 粒度 的 问题 , 下面 将 阐释 粒度 的 设计 方法 。 


5. 粒度 的 选择 与 设计 步骤 


第 2 章 指出 数据 仓库 中 的 数据 可 分 为 4 个 级 别 , 即 早期 细节 级 、 当 前 细节 级 、 轻 度 综合 
级 和 高 度 综合 级 。 源 数据 经 过 ETL 处 理 后 ,首先 进入 当前 细节 级 ,并 根据 具体 需要 进一步 
综合 ,从 而 进入 轻 度 综合 级 甚至 高 度 综合 级 ,老化 的 数据 将 进入 早期 细节 级 。 数 据 仓 库 中 存 
在 的 这 种 不 同 综合 级 别 ,就 是 “粒度 ”的 直观 表现 。 

粒度 模型 也 是 数据 仓库 设计 中 十 分 重要 的 问题 之 一 。 所 谓 粒 度 , 是 指数 据 仓 库 中 数据 
单元 的 详细 程度 和 级 别 。 数 据 越 详细 ,粒度 就 越 小 :级别 也 就 越 低 ; 数据 综合 度 越 高 ,粒度 
就 越 大 ,级 别 也 就 越 高 。 
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1) 粒度 的 不 同 选 择 会 导致 逻辑 模型 的 差异 

先 看 一 个 粒度 设计 的 例子 ,如 果 Adventure Works Cycles 公司 的 管理 者 想 按照 国家 
(country) ,区 域 (region) 、 子 区 域 (subregion) 和 子 区 内 的 销售 员 这 样 的 层次 关系 来 查看 公 
司 的 销售 情况 ,其 雪花 型 模式 的 ER 图 如 图 3. 10 所 示 , 它 是 通过 将 地 理 概念 层次 的 国家 、 区 
域 和 子 区 域 通 入 到 销售 员 维 度 得 到 的 。 


客户 维 
产品 维 CustomerID bl 
ProductID CountryID Co ae 
ProductName RegionID Country ID 
CustomerID 
人 Region table 
i roduct 
时 间 维 TimelD 销售 员 维 RegionID 
TimelD 一 Amount ER RegionName 
Year ba zd 
Month 
et Subregion table 


SubregionID 


图 3.10 细 化 到 销售 员 层 次 的 逻辑 模型 


如 果 公 司 的 决策 者 认为 不 需要 了 解 具体 到 某 个 销售 人 员 的 情况 ,而 只 需要 了 解 各 个 地 
理 区 域 的 销售 情况 , 则 没有 必要 把 销售 员 维 作为 一 个 维度 ,把 地 域 相 关 的 表 综 合成 为 地 理 维 
度 就 可 以 了 ,设计 结构 如 图 3. 11 所 示 。 


一 一 一 一 客户 维 
产品 维 CustomerID 
ProductID CountryID 
ProductName RegionID 
让 销售 事实 表 
CustomerID 
GeolD 
和 ProductID 
时 间 维 TimelD 地 理 维 
TimelD Amount GeolD 
Year ee GountryID 
Month RegionID 
了 SubregionID 


图 3.11 细 化 到 子 区 域 层次 的 逻辑 模型 


由 以 上 实例 可 知 , 对 事实 粒度 需求 的 不 同 , 会 直接 导致 数据 仓库 逻辑 设计 的 差异 。 

2) 粒度 的 不 同 选择 会 导致 数据 存储 容量 的 差异 

粒度 对 数据 仓库 最 直接 的 影响 就 是 存储 容量 。 例 如 , 按 月 统计 的 客户 购买 数据 和 按 次 
记录 客户 购买 数据 ( 即 记录 每 笔 销 售 ) ,两 者 的 数据 量 相差 极 大 ,假定 每 个 字段 为 8 字 节 ,每 
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个 客户 一 天 有 5 次 消费 , 则 1 个 客户 1 个 月 的 消费 细节 数据 的 数据 量 为 8X6X30X5= 
7200 字 节 ,而 1 个 客户 1 个 月 的 消费 汇总 数据 的 数据 量 为 8X4 二 32 字 节 ,如 图 3. 12 所 示 。 


每 笔 销售 事实 表 每 月 销售 事实 表 

CustomerID CustomerID 

客户 名 称 本 客户 名 称 
两 个 事实 表 

销售 流水 号 人 事实 表 | 月份 

销售 点 的 粒度 不 同 。 “| 销售 点 

销售 时 间 销售 条 

销 舍 额 ee 


图 3.12 不 同 粒度 的 事实 表示 例 


3) 粒度 的 设计 步 又 

由 以 上 的 分 析 可 知 ,数据 仓库 分 析 功 能 和 存储 空间 是 一 对 矛盾 。 如 果 粒 度 设 计 得 很 小 ， 
则 事实 表 将 不 得 不 记录 所 有 的 细节 ,储存 数据 所 需要 的 空间 将 会 急剧 膨胀 ; 若 设计 的 粒度 
很 粗 ,决策 者 则 不 能 观察 细节 数据 。 粒 度 设计 主要 完成 以 下 两 个 步 又。 

(1) 粗略 估算 数据 量 ,确定 合适 的 粒度 级 的 起 点 。 即 粗略 估算 数据 仓库 中 将 来 的 数据 
行 数 和 所 需 的 数据 存储 空间 ,例如 , 预 估 一 年 及 5 年 内 表 中 的 最 少 行 数 和 最 多 行 数 ,并 对 每 
张 表 确定 键 码 的 长 度 和 原始 表 中 每 条 数据 是 否 存在 键 码 。 

(2) 确定 粒度 的 级 别 。 在 数据 仓库 中 确定 粒度 的 级 别 时 ,需要 考虑 这 样 一 些 因素 : 分 
析 需 求 类 型 .数据 最 低 粒 度 和 存储 数据 量 。 

分 析 需 求 类 型 直接 影响 到 数据 仓库 的 粒度 划分 ,将 粒度 的 层次 定义 得 越 高 ,就 越 不 能 在 
该 数据 仓库 中 进行 更 细致 的 分 析 。 例 如 ,将 粒度 的 层次 定义 为 月 份 时 ,就 不 可 能 利用 数据 仓 
库 进行 按 日 汇总 的 信息 分 析 。 因 此 ,数据 粒度 的 划分 策略 一 定 要 保证 数据 的 粒度 确实 能 够 
满足 用 户 的 决策 分 析 需 要 ,这 是 数据 粒度 划分 策略 中 最 重要 的 一 个 准则 。 

数据 仓库 通常 在 同一 模式 中 使 用 多 重 粒度 ,这 是 以 数据 仓库 中 所 需 的 最 低 粒 度 级 别 为 
基础 设置 的 。 例 如 ,当前 (当年 ) 数 据 的 数据 粒度 和 历史 数据 的 数据 粒度 可 以 不 同 ,形成 双重 
粒度 , 即 用 低 粒度 数据 保存 近期 的 财务 数据 和 汇总 数据 ,对 时 间 较 远 的 财务 数据 只 保留 粒度 
较 大 的 汇总 数据 。 这 样 既 可 以 对 财务 近况 进行 细节 分 析 , 又 可 以 利用 汇总 数据 对 财务 作 趋 
势 分 析 。 

定义 数据 仓库 粒度 的 另外 一 个 要 素 是 数据 仓库 可 以 使 用 多 种 存储 介质 的 空间 量 。 如 果 
存储 资源 有 一 定 的 限制 ,就 只 能 采用 较 高 粒度 的 数据 粒度 划分 策略 。 这 种 粒度 划分 策略 必 
须 依据 用 户 对 数据 需求 的 了 解 和 信息 占用 数据 仓库 空间 的 大 小 来 确定 。 随 着 存储 硬件 的 加 
速 发 展 ,这 个 因素 的 影响 将 越 来 越 不 重要 。 

4) 粒度 设计 示例 

下 面 以 Adventure Works Cycles 公司 的 生产 部 门 数据 仓库 设计 为 例 , 如 图 3. 13 所 示 。 
这 里 采用 多 重 粒度 设计 。 左 边 是 操作 型 业务 数据 ,记录 完成 若干 给 定 部 件 的 生产 线 运 转 情 
况 ,每 一 天 都 会 积累 许多 记录 ,是 生产 业务 的 详细 数据 ,最 近 30 天 的 业务 详细 信息 都 存储 在 
OLTP 环境 中 。 

图 3. 13 的 右边 是 轻 度 汇总 级 的 数据 , 轻 度 汇总 级 包括 两 个 表 , 一 个 汇总 某 一 部 件 在 3 
个 月 中 的 生产 情况 , 另 一 个 汇总 部 件 的 组 装 情况 ,汇总 周期 为 1 年 。 生 产 档案 表 则 包括 每 个 


66 


” ” 国 据 仓库 与 数据 挖 所 
生产 活动 的 详细 记录 。 
生产 情况 表 
零 部 件 号 
汇总 日 其 
生产 数量 
OLTP 生 产 明细 表 使 用 数量 
零 部 件 号 生产 批 数 
日 期 
数量 
组 装 产品 号 
生产 订单 本 
让 记 生产 档案 表 
责任 人 零 部 件 号 
合格 率 日 其 
i 数量 
生产 订单 
责任 人 
合格 率 


图 3.13 Adventure Works Cycles 公司 的 生产 业务 的 多 重 粒度 设计 示例 


6. 关于 数据 仓库 的 聚合 模型 


在 事实 表 中 存放 的 度量 变量 .根据 其 实际 意义 可 分 成 可 加 性 度量 变量 和 非 可 加 性 度量 
变量 。 可 加 性 度量 变量 是 指 将 变量 相 加 后 得 到 的 结果 仍然 具有 实际 意义 ,可 以 把 此 结果 计 
算 后 放 在 事实 表 中 ,以 便 在 以 后 的 查询 中 直接 使 用 ,这 个 相 加 的 结果 就 是 聚合 。 例 如 每 个 月 
的 销售 金额 ,通过 将 3 个 月 的 销售 金额 相 加 ,就 可 以 得 到 1 个 季度 的 销售 金额 ; 通过 将 12 
个 月 的 销售 金额 相 加 ,可 以 得 到 全 年 的 销售 总 金额 。 

确定 了 数据 仓库 的 粒度 模型 以 后 ,为 提高 数据 仓库 的 使 用 性 能 ,还 需要 根据 用 户 需 求 设 
计 聚 合 。 数 据 仓库 中 各 种 各 样 的 聚合 数据 主要 是 为 了 使 用 户 获得 更 好 的 查询 性 能 ,因此 到 
合 模 型 的 好 坏 将 在 很 大 程度 上 影响 到 数据 仓库 的 最 终 使 用 性 能 。 

在 数据 仓库 的 聚合 设计 中 ,应 该 对 每 个 维 进行 审查 ,以 确定 哪些 属性 经 常用 于 分 组 ,这 
些 属 性 的 组 合 有 多 少 。 例 如 ,假定 某 一 主题 有 4 个 维度 ,每 个 维度 有 3 个 可 以 作为 聚合 的 属 
性 ,那么 最 多 可 以 创建 256 个 不 同 的 聚合 。 在 实际 工作 中 没有 必要 创建 这 么 多 聚合 ,我 们 要 
根据 用 户 的 分 析 需 求 来 创建 用 户 经 常 使 用 的 聚合 。 

数据 仓库 的 聚合 模型 设计 与 数据 仓库 的 粒度 模型 紧密 相关 ,如 果 数 据 仓库 的 粒度 模型 
只 考虑 了 细节 数据 ,那么 就 可 能 需要 多 设计 一 些 聚 合 ; 如 果 粒 度 模型 为 多 层 数 据 结构 , 则 在 
聚合 模型 设计 中 可 以 少 考虑 一 些 聚 合 。 


7. 关于 数据 的 分 割 处 理 
数据 分 割 是 把 数据 分 散 到 各 自 的 物理 单元 中 去 .使 它们 能 独立 地 处 理 。 分 割 是 数据 仓 
库 中 继 粒 度 问 题 之 后 的 又 一 个 主要 的 设计 问题 。 


为 什么 分 割 如 此 重要 呢 ? 因为 小 的 物理 单元 能 为 操作 者 和 设计 者 在 管理 数据 时 提供 更 
大 的 灵活 性 。 数 据 仓库 的 本 质 之 一 就 是 灵活 地 访问 数据 ,因此 对 所 有 级 别 为 “当前 细节 ?的 


67 
第 3 章 人 


数据 仓库 数据 都 可 考虑 使 用 分 割 技术 。 分 割 的 原理 如 图 3. 14 所 示 ,由 于 全 部 销售 记录 过 于 
庞大 ,可 以 按照 不 同 的 年 度 把 它 分 割 为 若干 个 物理 单元 。 


2003 20042005 2006 2007 


图 3.14 数据 分 割 处 理 


在 项 目 实施 时 ,根据 事实 表 的 特点 和 用 户 的 查询 需求 ,可 以 选用 时 间 、 业 务 类 型 .区 域 和 
下 属 组 织 等 多 种 数据 分 割 类 型 。 


8. 星 型 图 中 的 维度 表 简 介 


在 图 3. 10 所 示 的 星 型 图 中 ,处 于 星 型 结构 中 央 的 事实 表 不仅 包 含 度量 指标 ,而 且 也 包 
含 维度 表 的 外 键 和 事实 表 的 主键 ,而 维度 表 除 了 代表 维 的 主键 之 外 ,还 有 其 他 属性 字段 , 例 
如 客户 维度 表 包 含 一 个 主键 Customer Key 和 有 关 客 户 信息 的 其 他 字段 。 维 度 由 主键 和 维 
属性 构成 , 维 属 性 即 是 维度 表 里 的 列 。 维 元 素 定 义 维度 表 中 的 层次 关系 ,属性 则 以 用 户 熟 悉 
的 术语 描述 维 元 素 。 

在 设计 过 程 中 ,来 自 数据 源 的 数值 数据 字段 到 底 是 一 个 度量 事实 还 是 一 个 维度 的 属性 ? 
一 般 情况 下 ,如 果 数 值 数据 字段 的 度量 经 常 改变 ,那么 它 就 是 事实 ; 如 果 它 是 离散 值 性 质 的 
描述 属性 , 且 几 乎 保持 为 常数 ,那么 它 就 是 维 属 性 。 

1) 维度 表 应 有 的 数据 特征 

(1) 维度 通常 使 用 解析 过 的 时 间 、 名 字 或 地 址 元 素 ,这 样 可 以 使 分 析 查 询 更 灵活 。 例 如 
时 间 可 分 为 年 、 季 、 月 、 周 和 日 等 ; 个 人 名 字 可 以 分 为 姓氏 和 称谓 等 ; 地 址 则 可 以 用 地 理 区 
域 来 区 分 ,如 国家 、 省 \ 市 和 县 等 。 

(2) 维度 表 通 常 不 使 用 业务 数据 库 的 键 值 作为 主键 ,而 是 对 每 个 维度 表 另 外 增加 一 个 
额外 的 键 值 字段 作为 主键 来 识别 维 表 实 体 , 最 常 使 用 的 字段 类 型 是 Identity 类 型 。 在 维 表 
中 新 设 定 的 键 也 叫 代理 键 。 

(3) 维度 表 应 该 包含 随时 间 变 化 的 数据 记录 字段 , 当 数据 集 市 或 数据 仓库 的 数据 随时 
间 变 化 而 有 额外 增加 或 改变 时 , 维 表 的 数据 行 应 有 标识 此 变化 的 字段 。 

2) 维度 表 中 维度 的 分 类 

维度 的 类 型 包括 结构 维 \ 信 息 维 、 分 区 维 、 分 类 维 、 退 化 维和 一 致 维 等 多 种 类 型 。 

(1) 结构 维 。 结 构 维 表示 在 层次 结构 组 成 中 的 信息 度量 。 如 年 .月 和 日 可 以 组 成 一 个 结 
构 维 。 又 如 将 销售 量 用 作 一 个 度量 ,与 这 个 度量 相关 的 维度 表 是 包含 产品 属性 的 产品 信息 表 。 
产品 信息 表 的 维 包 括 产 品名 (product_name)、 品 牌 (product_brand) 类别 (product_category) 和 
产品 家 族 /系列 (product_family) 等 。 这 些 维度 也 组 成 一 个 结构 维 ,在 这 个 示例 中 ,如 果 再 增 
加 一 个 时 间 信 息 表 ,由 年 .月 和 日 组 成 的 时 间 信 息 对 象 建立 一 个 时 间 结 构 维 。 通 过 这 两 个 结 
构 维 , 可 以 用 OLAP 模型 确定 某 类 特殊 产品 在 某 一 特定 时 期 的 销售 总 量 。 

(2) 信息 维 。 信 息 维 是 由 计算 字段 建立 的 。 假 如 用 户 想 通 过 销售 利润 了 解 所 有 产品 的 
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销售 总 额 ,进而 分 析 是 否 可 以 通过 增加 销售 来 获得 更 多 的 利润 。 因 为 销售 量 大 ,可 能 因 薄 利 
多 销 ,导致 利润 并 不 高 ; 反之 , 若 某 产品 利润 率 高 ,可 能 销量 小 却 利润 高 。 因 此 ,可 以 就 利润 
建立 一 个 信息 维 (包括 单 品 利润 .总 利润 等 属性 ) ,对 销售 总 量 建立 一 个 度量 ,进而 分 析 利 润 
与 销量 的 关系 。 

(3) 分 区 维 。 分 区 维 以 同一 结构 生成 两 个 或 多 个 维 时 ,这 些 维 结构 相同 ,只 是 数值 不 
同 。 例 如 ,对 于 时 间 维 ,每 一 年 都 有 相同 的 季度 、 相 同 的 月 和 相同 的 天 (除了 图 年 以 外 )。 假 
定 把 度量 事实 表 分 割 为 2007 年 的 数据 和 2008 年 的 数据 ,那么 在 OLAP 分 析 中 将 频繁 使 用 
时 间 分 区 维 来 分 割 数据 仓库 中 的 数据 。 其 中 一 个 时 间 维 是 针对 2007 年 的 数据 ,而 另 一 个 时 
间 维 针对 2008 年 的 数据 。 

(4) 分 类 维 。 分 类 维 是 通过 对 一 个 维 的 属性 值 分 组 而 创建 的 。 例 如 ,客户 表 中 有 家 庭 
收入 属性 ,如 果 和 希望 查看 客户 根据 收入 的 购物 方式 ,就 可 以 生成 一 个 含有 家 庭 收 入 的 分 
类 维 。 

(5) 退化 维 。 当 维 表 中 的 主键 在 事实 表 中 没有 与 外 键 关 联 时 ,这 样 的 维 称 为 退化 维 。 
退化 维 与 事实 表 并 无 关系 ,但 有 时 在 查询 限制 条 件 ( 如 订单 号 码 .出 货 单 编号 等 ) 中 需要 用 到 
退化 维 。 以 销售 分 析 为 例 , 通 常 是 把 出 货 日 期 作为 事实 时 间 ,而 把 订单 日 期 或 需求 日 期 等 作 
为 查询 条 件 ,这 里 ,订单 日 期 或 需求 日 期 就 是 退化 维 。 

(6) 一 致 维 。 当 有 好 几 个 数据 集 市 要 合并 成 一 个 企业 级 数据 仓库 时 ,可 以 使 用 一 致 维 
来 集成 数据 集 市 ,以便 确保 数据 仓库 可 以 使 用 每 个 数据 集 市 的 事实 。 

3) 维度 表 中 维度 的 层次 与 级 别 

“ 维 " 一 般 包 含 着 层次 关系 ,如 在 时 间 维 度 上 ,按照 “年 - 季 - 月 "形成 了 一 个 层次 ,其 中 
“年 "“ 季 ”和 “月 ”成 为 这 个 层次 的 三 个 级 别 。 同 样 ,在 建立 产品 维度 时 .可 以 将 “大 类 - 子 类 - 
单 品 " 划 为 一 个 层次 ,其 中 包含 “大 类 ”"“ 子 类 ”和 " 单 品 "三 个 级 别 ,维度 的 层次 在 数据 仓库 中 
通常 采用 合并 维 分 层 结构 和 雪花 分 层 结构 两 种 实现 方式 。 

(1) 合并 维 分 层 结构 。 合 并 维 分 层 结构 是 将 不 同 分 层 结构 的 信息 对 象 完全 合并 到 同一 
个 维 中 。 如 产品 维 表 可 能 就 包含 产品 总 类 ,产品 类 别 .产品 详细 类 别 及 产品 名 称 等 ,合并 维 
分 层 结构 是 星 型 模式 的 标准 实现 方法 。 其 优点 是 查询 简单 ,由 于 所 有 的 分 层 结构 都 合并 在 
同一 维 表 中 ,因此 不 需要 额外 的 表 连 接 ; 其 缺点 是 通常 不 符合 第 三 范式 ,存在 数据 重复 , 需 
要 较 多 的 硬盘 存储 空间 。 

(2) 雪花 分 层 结 构 。 所 有 类 别 用 规范 化 的 独立 表 来 存储 数据 。 例 如 ,将 产品 详细 类 别 、 
产品 类 别 及 产品 总 类 这 三 个 分 层 结构 分 别 独 立成 一 个 表 , 再 用 主键 与 外 键 来 维持 表 间 联系 。 
雪花 分 层 结构 实际 上 是 将 星 型 模式 进行 规范 化 。 其 优点 是 因 做 过 规范 化 ,所 以 没有 宛 余 数 
据 ,可 能 会 节省 硬盘 空间 ; 其 缺点 是 查询 需要 作 表 连接 , 较 麻 烦 。 


9. 关于 缓慢 变化 维 的 处 理 


维度 可 以 根据 其 变化 快慢 分 为 无 变化 维度 、 缓 慢 变 化 维度 和 剧烈 变化 维度 3 类 。 例 如 ， 
员工 或 客户 的 身份 证 号 、 姓 名 和 性 别 等 信息 数据 基本 属于 不 变 维 范畴 ; 政治 面貌 和 婚姻 状 
态 属于 缓慢 变化 维 范畴 ; 而 工作 经 历 、 工 作 单位 和 培训 经 历 等 在 某 种 程度 上 属于 急剧 变化 
维度 。 通 常情 况 下 ,把 其 中 不 常 变动 的 部 分 单独 抽出 来 作为 一 个 维 表 , 按 照 缓慢 变化 维 方式 
进行 处 理 。 对 于 维度 的 缓慢 变化 ,可 以 根据 不 同 的 情况 采取 不 同 的 方法 来 处 理 。 


69 
第 3 章 人 


(1) 历史 数据 需要 修改 的 情况 。 这 种 情况 主要 是 发 生 在 业务 数据 库 中 的 数据 出 现 错 
误 ,在 分 析 过 程 中 需要 修改 。 处 理 办 法 是 用 直接 覆盖 法 ,即使 用 UPDATE 语句 来 修改 维度 
表 中 的 数据 。 

(2) 新 增 数 据 维度 成 员 改 变 了 属性 的 情况 。 若 某 维 度 成 员 新 加 入 了 一 列 , 该 列 在 历史 
数据 中 无 值 , 而 在 当前 数据 和 将 来 数据 中 有 值 , 且 可 以 查询 。 解 决 方法 是 使 用 存储 过 程 或 程 
序 生成 新 的 维度 属性 ,在 后 续 的 数据 中 可 基于 新 属性 进行 查询 。 

(3) 历史 数据 保留 ,新 增 数据 也 要 保留 的 情况 。 在 这 种 需求 下 的 解决 方法 是 创建 额外 
字段 来 记录 这 些 数据 之 间 的 关系 ,例如 在 该 维度 打上 时 间 戳 ,即将 历史 数据 生效 的 时 间 段 作 
为 它 的 一 个 属性 ,在 与 原始 匹配 生成 事实 表 时 将 按照 时 间 段 进行 关联 。 这 种 方法 的 最 大 优 
点 在 于 数据 更 改 时 ,不 需要 创建 额外 的 数据 行 ,也 不 需要 改变 维 表 中 的 键 值 结构 ,因此 可 以 
在 现 有 的 数据 行 中 查看 所 有 历史 记录 。 而 最 大 的 缺点 是 由 时 间 点 来 判断 更 新 的 数据 查询 性 
能 会 降低 ,如 果 数 据 经 常 变化 , 则 此 方法 并 不 适合 。 


10. 常用 维度 的 设计 模式 


在 数据 仓库 的 逻辑 模型 设计 中 ,有 一 些 维度 是 经 常 使 用 的 ,它们 的 设计 也 形成 了 一 定 的 
设计 模式 和 原则 。 

1) 时 间 维 度 

时 间 维 度 是 最 常见 的 维度 ,数据 仓库 存储 的 是 系统 的 历史 数据 ,业务 分 析 最 基本 的 维度 
就 是 时 间 维 度 。 时 间 维 度 通常 包含 年 , 季 , 月 .星期 和 日 5 个 层次 ,实际 应 用 可 能 还 会 在 月 和 
星期 之 间 增 加 旬 层 次 ,对 日 可 能 还 会 进一步 分 类 ,如 节假日 和 工作 日 ,以 及 周末 和 非 周末 。 
进行 这 些 分 类 的 目的 是 为 了 满足 业务 分 析 的 需求 。 因 为 很 多 业务 在 周末 节假日 与 正常 工作 
日 会 有 明显 不 同 ,分 析 业 务 在 这 个 维度 属性 的 变化 会 很 有 意义 。 

另 一 类 型 常见 的 时 间 维 度 是 按照 财 年 定义 的 时 间 维 度 , 这 在 财务 分 析 方 面 是 必须 使 用 的 。 

2) 地 理 维度 

地 理 维度 如 国家 、 区 域 和 子 区 域 等 。 地 理 维度 的 展示 可 与 地 理 信 息 系统 结合 起 来 ,使 得 
最 终 用 户 能 够 得 到 更 加 直观 的 分 析 结 果 。 

3) 机 构 维 度 

机 构 维度 是 指 实 施 项 目的 组 织 单 位 的 内 部 组 织 机 构 的 层次 属性 ,机 构 维 度 有 利于 对 企 
业 各 个 部 门 或 者 各 个 分 公司 之 间 进 行 对 比分 析 。 

尽管 一 些 企业 的 组 织 架 构 ( 子 公司 ) 是 按照 省 市 区 域 组 织 的 ,但 机 构 维 度 同 地 理 维度 在 
本 质 上 是 不 同 的 ,地 理 维 描述 的 是 地 理 信息 .而 机 构 维 描述 的 是 企业 的 组 织 架构 。 

4) 客户 维度 

企业 总 是 要 服务 客户 的 ,因此 客户 维度 通常 是 必 不 可 少 的 。 分 析 客 户 背 景 信 息 对 客户 
消费 行为 的 影响 ,通过 客户 背景 信息 对 客户 群体 进行 合理 分 类 都 是 企业 市 场 策略 分 析 的 重 
要 方面 。 常 用 的 客户 背景 信息 包括 客户 年 龄 性别、 婚姻 状况 、 爱 好 和 教育 程度 等 。 


325 数据 仓库 的 物理 模型 设计 


这 一 节 将 从 逻辑 模型 设计 转向 物理 模型 设计 ,数据 仓库 的 物理 模型 设计 基本 遵循 传统 
的 数据 库 设 计 方 法 。 事 实 上 ,数据 仓库 的 物理 模型 就 是 数据 仓库 逻辑 模型 在 物理 系统 中 的 
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实现 模式 。 其 中 包括 了 逻辑 模型 中 各 种 实体 表 的 具体 化 ,例如 表 的 数据 结构 类 型 .索引 策 
略 ` 数 据 存放 位 置 和 数据 存储 分 配 等 。 星 型 图 中 的 指标 实体 和 详细 类 别 实体 通常 转变 为 具 
体 的 物理 数据 库 表 ,而 维度 实体 则 可 能 作为 查询 参考 .过 滤 和 聚合 数据 使 用 ,不 一 定 直接 转 
变 为 物理 数据 库 表 。 


1. 物理 模型 设计 的 主要 工作 


在 进行 物理 模型 的 设计 时 ,需要 考虑 的 因素 有 I/O 存 取 时 间 、 空 间 利用 率 及 维护 成 本 
等 。 在 物理 模型 设计 阶段 ,需要 完成 以 下 工作 。 
(1) 定义 数据 标准 ,规范 化 数据 仓库 中 的 数据 。 
(2) 选择 数据 库 架构 (关系 数据 库 的 星 型 模式 ,多维 数据 库 的 Cube) 及 其 具体 的 数据 库 
管理 系统 软件 和 版 本 等 。 
(3) 根据 具体 使 用 的 数据 库 管 理 系统 ,将 实体 和 实体 特征 物理 化 ,具体 包括 如 下 内 容 。 
Q@ 字段 设计 。 如 字段 数据 类 型 选择 .数据 完整 性 (字段 的 物理 结构 ) 控 制 等 。 
@ 物理 记录 设计 (物理 存 取 块 与 物理 记录 的 处 理 )。 主 要 解决 存储 空间 的 有 效 利用 问题 。 
@ 反 向 规范 化 (denormalization)。 根 据 需要 ,用 来 提高 数据 的 查询 性 能 。 
@ 分 区 。 
(4) 数据 容量 和 使 用 频率 分 析 , 以 定义 规模 ,确定 数据 容量 、 响 应 时 间 要 求 和 更 新 频率 
。 确 定 外 部 存储 设备 等 物理 环境 。 
(5) 物理 文件 的 设计 。 指 针 、 文 件 组 织 和 簇 文件 。 
(6) 索引 的 使 用 与 选择 。 
(7) RAID, 


疏 


2. 物理 存储 结构 设计 的 原则 


在 物理 设计 时 ,常常 要 将 数据 按 其 重要 性 、 使 用 频率 及 响应 时 间 要 求 进行 分 类 ,将 不 同 
类 型 的 数据 分 别 存储 在 不 同 的 存储 设备 中 。 重 要 性 高 .经常 存 取 并 对 响应 时 间 要 求 高 的 数 
据 存放 在 高 速 存储 设备 上 ; 存 取 频 率 低 或 对 存 取 响 应 时 间 要 求 低 的 数据 则 可 以 存放 在 低速 
存储 设备 上 。 另 外 ,在 设计 时 还 要 考虑 数 据 在 特定 存储 介质 上 的 布局 。 存 储 结构 设计 原则 
包括 如 下 几 点 。 

(1) 不 要 把 经 常 需要 连接 的 几 张 表 放 在 同一 存储 设备 上 .这 样 可 以 利用 存储 设备 的 并 
行 操作 功能 加 快 数据 查询 的 速度 。 

(2) 建议 把 整个 组 织 共享 的 细节 数据 放 在 一 个 集中 式 服务 器 (或 集群 ) 上 ,以 提高 这 些 
共享 数据 的 访问 性 能 。 

(3) 建议 将 数据 库 表 和 索引 分 放 在 不 同 物 理 存储 设备 上 ,一 般 可 以 将 索引 存放 在 高 速 
存储 设备 上 ,而 将 表 存 放 在 一 般 存 储 设备 上 ,以 加 快 数据 的 查询 速度 。 

(4) 建议 在 系统 中 使 用 廉价 元 余 磁 盘 阵 列 (redundant array of inexpensive disk,RAID) 。 


3. 数据 仓库 索引 设计 的 特殊 性 


数据 仓库 的 数据 量 通常 较 大 , 且 数 据 一 般 很 少 更 新 .所 以 可 以 通过 设计 和 优化 索引 结构 
来 提高 数据 存 取 性 能 。 数 据 仓 库 中 的 表 通 常 要 比 联机 事务 处 理 系统 中 的 表 建 立 更 多 的 索 
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引 , 表 中 应 用 的 最 大 索引 数 应 与 表 的 数据 量规 模 成 正比 ,设计 人 员 甚 至 可 以 考虑 对 部 分 数据 
表 建 立 专用 索引 和 复杂 索引 ,以 获取 较 高 的 存 取 性 能 。 数 据 仓库 是 个 只 读 的 环境 ,建立 索引 
可 以 取得 灵活 性 ,对 性 能 极为 有 利 。 但 是 , 表 有 很 多 索引 ,那么 数据 加 载 时 间 就 会 延长 ,因此 
数据 仓库 索引 的 建立 也 需要 综合 考虑 。 在 建立 索引 时 ,可 以 按照 索引 使 用 的 频率 由 高 到 低 
逐步 添加 ,直到 某 一 索引 加 入 后 ,使 数据 加 载 或 重组 表 的 时 间 过 长 时 ,就 结束 索引 的 添加 。 

最 初 ,一 般 都 是 按 主 键 和 外 键 建立 索引 。 如 果 表 数据 量 过 大 , 则 可 能 需要 另外 增加 索 
引 。 如 果 一 个 表 中 所 有 用 到 的 列 都 在 索引 文件 中 ,就 不 必 访 问 事实 表 , 只 要 访问 索引 就 可 以 
达到 访问 数据 的 目的 ,以 此 来 减少 LO 操作 。 如 果 表 太 大 ,并 且 经 常 要 对 它 进行 长 时 间 的 
扫描 ,那么 还 可 以 考虑 添加 一 张 概 要 表 以 减少 数据 的 扫描 任务 。 


4. 存储 优化 与 存储 策略 


确定 数据 的 存储 结构 和 表 的 索引 结构 后 ,需要 进一步 确定 数据 的 存储 位 置 和 存储 策略 ， 
以 提高 系统 的 IO 效率。 下 面 介 绍 几 种 常见 的 存储 优化 方法 。 

(1) 表 的 归并 与 得 文件 (clustering files)。 当 多 个 表 的 记录 分 散 存 放 在 几 个 物理 块 中 
时 ,这 些 表 的 存 取 和 连接 操作 的 代价 会 很 大 。 这 时 可 以 将 需要 同时 访问 的 表 在 物理 上 顺序 
存放 ,或 者 直接 通过 公共 键 将 相互 关联 的 记录 放 在 一 起 。 即 簇 文 件 设计 模式 ,这 种 设计 模式 
通常 在 访问 序列 经 常 出 现 或 者 表 之 间 具 有 很 强 的 访问 相关 性 时 有 较 好 的 性 能 效果 ,对 于 很 
少 出 现 的 访问 序列 和 没有 强 相关 性 的 表 , 使 用 表 的 归并 时 没有 效果 。 

(2) 反 向 规范 化 ,引入 元 余 。 一 些 表 的 某 些 属性 可 能 在 对 多 个 其 他 表 的 查询 时 经 常用 到 ， 
则 可 考虑 将 这 些 属性 复制 到 多 个 主题 相关 表 中 ,可 以 减少 查询 时 连接 表 的 个 数 。 另 外 ,根据 需 
要 可 以 存储 导出 数据 属性 , 即 在 原始 数据 的 基础 上 进行 总 结 或 计算 ,生成 导出 数据 (derived 
data) 并 作为 元 余 列 存储 在 表 中 ,以 便 在 应 用 中 直接 使 用 这 些 导出 数据 , 免 去 计算 或 汇总 过 程 。 

(3) 表 的 物理 分 割 ( 分 区 )。 每 个 主题 中 的 各 个 属性 或 记录 的 存 取 频率 是 不 同 的 。 将 一 
张 表 按 各 属性 或 记录 的 存 取 频率 分 成 多 张 表 , 将 具有 相似 访问 频率 或 访问 相关 性 强 的 数据 
组 织 在 一 起 。 

以 上 完成 了 数据 仓库 从 概念 模型 到 物理 模型 的 整个 设计 过 程 ,但 事实 上 ,数据 仓库 系统 
的 设计 过 程 不 是 这 样 完 全 分 离 的 三 部 曲 , 而 是 一 个 动态 、 循 环 和 反馈 的 过 程 ,数据 仓库 的 设 
计 过 程 实际 上 是 一 个 螺旋 式 动态 变化 的 过 程 。 其 中 数据 仓库 的 数据 内 容 、 结 构 、 粒 度 、 分 割 
与 维度 等 的 设计 需要 在 不 断 与 用 户 沟通 .听取 用 户 反馈 信息 的 基础 上 不 断 地 调整 与 完善 ,只 
有 不 断 启 发 与 理解 用 户 的 分 析 需 求 , 才 能 挖掘 出 用 户 的 潜在 真实 需求 ,向 用 户 提供 更 准确 和 
更 有 用 的 决策 信息 。 

在 完成 数据 模型 的 设计 之 后 .就 可 以 在 具体 的 数据 库 管理 系统 (如 SQL Server 2005) 中 
根据 设计 的 数据 模型 建立 数据 仓库 数据 库 .其 表 结 构 及 表 间 关系 参见 SQL Server 自 带 的 示 
例 数 据 库 (Adventure Works DW)。 


3.3 使 用 SQL Server 2005 建立 多 维 数据 模型 


在 完成 数据 模型 设计 并 据 此 建立 数据 仓库 数据 库 之 后 ,就 可 以 导出 数据 ,建立 多 维 数据 
模型 (也 叫 Cube) ,形成 针对 某 主题 的 数据 集 市 .进行 OLAP 分 析 了 。 这 一 节 将 通过 示例 演 
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示 建 立 多 维 数据 模型 ,一 步 一 步 地 展示 数据 的 导出 过 程 。 
33.1 SQL Server 2005 示例 数据 仓库 环境 的 配置 与 使 用 


1. 本 节 的 示例 操作 需要 在 SQL Server 2005 数据 库 环境 中 安装 下 列 组 件 .示例 和 工具 


(1) Microsoft SQL Server 2005 Database Engine。 

(2) Microsoft SQL Server 2005 Analysis Services。 注 意 , 只 有 标准 版 .企业 版 和 开发 
版 有 此 功能 ,工作 组 版 及 Express 免费 版 没有 此 功能 。 

(3) Business Intelligence Development Studio 。 

(4) Adventure Works DW 示例 数据 库 。 

(5) Analysis Services 教程 示例 项 目 。 


2. 权限 方面 


必须 是 Analysis Services 计算 机 上 本 地 管理 员 组 (Administrators) 的 成 员 或 Analysis 
Services 实例 中 的 服务 器 角色 的 成 员 。 如 果 需 要 使 用 示例 数据 库 , 必 须 拥有 对 SQL Server 
2005 Adventure Works DW 数据 库 的 读 取 权限 。 


3. 如 何 安 装 示例 数据 库 


如 果 在 初始 安装 SQL Server 2005 过 程 中 没有 安装 示例 数据 库 或 示例 ,可 以 通过 如 下 
步骤 安装 示例 数据 库 。 

(1) 安装 并 附加 示例 数据 库 。 

从 “添加 或 删除 程序 ”中 选择 Microsoft SQL Server 2005 ,然后 单 击 “ 更 改 ” 按 钮 。 按 照 
Microsoft SQL Server 维护 向 导 中 的 步骤 操作 。 

从 “选择 组 件 ”" 中 选择 “工作 站 组 件 ”, 然 后 单 击 “ 下 一 步 " 按 钮 。 

从 “更 改 或 删除 实例 ”中 单 击 “ 更 改 已 安装 的 组 件 ”。 

在 “功能 选择 ”对 话 框 中 ,展开 “联机 从 书 和 示例 ” 结 点 。 

选择 示例”, 展开 “数据 库 " 结 点 ,然后 选择 要 安装 的 示例 数据 库 。 单 击 “ 下 一 步 " 按 钮 
(如 图 3. 15 所 示 )。 

若 要 安装 并 附加 示例 数据 库 , 则 从 “安装 示例 数据 库 ” 中 选择 “附加 示例 数据 库 ”, 然 后 单 
击 “ 下 一 步 ” 按 钮 。 数 据 库 文 件 创建 并 存储 在 文件 夹 n:\Program Files\ Microsoft SQL 
Server\MSSQL. n\MSSQL\Data 中 。 数 据 库 已 附加 并 可 以 使 用 。 

若 要 安装 示例 数据 库 文件 但 不 附加 , 则 在 “安装 示例 数据 库 ” 中 选择 “安装 示例 数据 库 ”， 
然后 单 击 “ 下 一 步 " 按 钮 。Adventure Works 数据 库 文件 创建 在 文件 夹 n:\Program Files\ 
Microsoft SQL Server\90\Tools\Samples\Adventure Works OLTP 中 。Adventure Works 
DW 文件 创建 在 n:\Program Files\Microsoft SQL Server\90\Tools \Samples\Adventure 
Works Data Warehouse 文件 夹 中 。 必 须 先 附加 数据 库 , 然 后 才能 使 用 它 。 有 关 详 细 信 息 ， 
请 参阅 分 离 和 附加 数据 库 。 

(2) 安装 示例 程序 源 代码 。 

在 示例 数据 库 安装 完成 后 ,再 执行 以 下 方法 之 一 来 安装 示例 程序 代码 。 
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图 3.15 示例 数据 库 安装 界面 


@ 选择 “开始 ”一 “所 有 程序 ”一 Microsoft SQL Server 2005 命令 , 单 击 “ 文 档 和 教程 ”， 
然后 单 击 “ 示 例 ”, 再 单 击 “Microsoft SQL Server 2005 示例 ”。 

@ 使 用 Windows 资源 管理 器 ,定位 到 n:\Program Files\Microsoft SQL Server\90\ 
Tools\Samples\ ,然后 双击 SqlServerSamples. msi 启动 安装 程序 (如 图 3. 16 所 示 )。 
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图 3.16 示例 程序 代码 安装 
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(3) 部 署 Adventure Works DW Analysis Services( 已 经 建 好 的 一 个 示例 分 析 项 目 ) , 测 
试 数据 仓库 环境 的 配置 是 否 正确 。 

首先 确保 已 经 安装 了 Adventure Works 和 Adventure Works DW 示例 数据 库 ; 确保 已 
经 安装 了 Analysis Services。 

在 SQL Server Business Intelligence Development Studio 工具 栏 中 选择 “文件 ”一 “ 打 
”命令 ,然后 单 击 项目/ 解决 方案 ”。 浏 览 到 n:\Program Files\Microsoft SQL Server\90\ 
Tools \Samples\ Adventure Works Analysis Services Project, 选 择 文 件 Adventure Works. sln， 
然后 单 击 “打开 ”按钮 。 

在 解决 方案 资源 管理 器 中 右 击 Adventure Works DW ,在 弹出 的 快捷 菜单 中 选择 “部 
署 " 命 令 。 部 署 成 功 即 说 明 配 置 正确 。 


4. 利用 示例 数据 仓库 (Adventure Works DW) 环 境 及 帮助 系统 学 习 


选择 “开始 ”一 “所 有 程序 ”一 Microsoft SQL Server 2005 命令 , 单 击 “文档 和 教程 ”项 ， 
然后 单 击 “教程 ”按钮 ,再 单 击 “SQL Server 教程 "项 。 

进入 帮助 系统 后 , 单 击 左边 目录 树 结 点 “SQL Server 2005 教程 ">“*SQL Server 2005 
Analysis Services 教程 ”, 下 面 共 有 10 课 ,前 三 课 只 是 定义 一 个 多 维 数据 集 , 可 以 根据 自己 
的 学 习 要 求 选择 是 否 练 习 。 各 课 学 习 内 容 如 下 。 

第 1 课 : 在 Analysis Services 项 目 中 定义 数据 源 视图 。 使 用 BI Development Studio 在 
Analysis Services 项 目 中 定义 一 个 数据 源 视 图 。 

第 2 课 : 定义 和 部 署 多 维 数据 集 。 使 用 多 维 数据 集 向 导 定义 一 个 多 维 数据 集 及 其 维 
度 , 然 后 将 该 多 维 数据 集 部 署 到 Analysis Services 的 本 地 实例 中 。 

第 3 课 : 修改 度量 值 . 属 性 和 层次 结构 。 改 进 多维 数 据 集 的 用 户 友好 特性 ,并 逐渐 增加 
对 相关 更 改 的 部 署 , 根 据 需 要 处 理 多 维 数 据 集 及 其 维度 。 

第 4 课 : 定义 高 级 属性 和 维度 属性 。 使 用 组 合 键 来 定义 引用 维度 关系 以 及 为 属性 成 员 
排序 ,并 定义 自 定义 错误 处 理 。 

第 5 课 : 定义 维度 和 度量 值 组 之 间 的 关系 。 为 退化 维度 定义 一 个 事实 关系 ,并 定义 一 
个 多 对 多 关系 。 

第 6 课 : 定义 计算 。 定 义 计 算 成 员 、 命 名 集 和 脚本 。 

第 7 课 : 定义 关键 性 能 指标 。 

第 8 课 : 定义 操作 。 

第 9 课 : 定义 透视 和 翻译 。 定 义 多维 数 据 集 的 视图 以 及 元 数据 的 翻译 。 

第 10 课 : 定义 管理 角色 。 定 义 管理 角色 和 用 户 角 色 。 


332 基于 SQL Server 2005 示例 数据 库 的 多 维 数据 模型 


这 一 节 将 针对 Adventure Works Cycle 公司 的 销售 分 析 需 求 , 从 Adventure Works DW 
示例 数据 库 中 导出 数据 ,建立 并 部 署 * 销 售 分 析 ” 多 维 数据 集 ,进而 从 多 角度 对 Adventure 
Works Cycle 公司 的 销售 状况 作 分 析 研究 。 
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1. 创建 一 个 新 的 数据 仓库 分 析 项 目 


打开 Visual Studio 2005 新 建 项 目 ,选择 Analysis Services 项 目 , 并 将 项 目 名 称 更 改 为 
“销售 分 析 示 例 ”( 如 图 3. 17 所 示 )。 


可 双 
项 目 类 型 四) : 秽 析 加: 国 国 
丙 业 区 能 项 目 而 sual Studie 已 安装 的 模板 
由 其 地 项 目 类 型 

- 习 hmalysis Services 项 目 邮 Inteeration Services 项 目 
漳 导 入 Analysis Services 9.0 疝 报 表 服 务 器 项 目 向 导 
局 报表 服务 器 项 目 辐 报 表 模 型 项 目 
我 的 模板 
全 搜索 联机 模板 
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解决 方案 GE); | 句 肥 新 解决 方案 。 ”二 |] 厅 创建 解决 方案 的 目录 由) 

解 贡 方 雪 5 称 WE 


Cue ]_ wn | 


图 3.17 新 建 分 析 项 目 


具体 操作 路 径 : 选择 “开始 ”一 “所 有 程序 ”一 Microsoft SQL Server 2005 命令 ,再 单 击 
SQL Server Business Intelligence Development Studio, 将 打开 Microsoft Visual Studio 
2005 开发 环境 。 


2. 定义 数据 源 


在 “数据 源 " 文 件 夹 上 右 击 ,在 弹出 的 快捷 菜单 中 选择 “新 建 数 据 源 ”命令 (如 图 3. 18 
所 示 )。 


图 3. 18 选择“ 新建 数据 源 " 命 令 
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启动 新 建 数据 源 向 导 , 单 击 图 3. 19 中 的 “新 建 " 按 钮 。 
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选择 如 何 定义 连接 
悠 有 众多 方式 可 以 选择 ， 以 便 数 据 源 对 其 连接 字符 囊 进 行 定义 。 
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图 3.19 选择 如 何 定义 连接 


出 现 “ 连 接管 理 器 ”对 话 框 (如 图 3. 20 所 示 ) ,在 “提供 程序 "下 拉 列 表 框 中 确保 已 选中 
“本 机 OLE DB\ Microsoft OLE DB Provider for SQL Server” 选 项 。 选 择 数据 源 账号 为 “使 


用 服务 账户 ”并 命名 数据 源 为 “销售 分 析 数 据 源 ”。 


系 连接 管理 器 | 
提供 程序 ): 本 机 OLE DB\SQL Native Client -= 


服务 器 名 EE); 
Focaahost 
三 登录 到 服务 器 
他 使 用 Windows 身份 验证 地 ) 
个 使 用 SQL Server 身份 验证 四 ) 

用 户 名 DD 

E2202 | 

隔 保 闻 宪 码 各 


图 3. 20 选择 要 连接 的 数据 库 
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3. 定义 数据 源 视图 


选择 “数据 源 视图 ”文件 夹 .新 建 一 个 数据 源 视图 (如 图 3. 21 所 示 )。 数 据 源 选择 上 一 步 
新 建 的 “销售 分 析 数 据 源 ”。 在 “可 用 对 象 " 列 表 框 中 ,选择 下 列表 (同时 按 下 Ctrl 键 可 选择 
多 个 表 ) 。 

(1) Dim Customer( 客 户 维 表 ) 。 

(2) Dim Geography( 地 理 维 表 ) 。 

(3) Dim Product( 产 品 维 表 ) 。 

(4) Dim Time( 时 间 维 表 ) 。 

(5) FactInternet Sales( 网 上 销售 事实 表 ) 。 

[=| 


选择 表 和 视图 
从 要 包 合 在 数据 源 视图 中 的 关系 数据 库 中 选择 对 象 。 


可 用 对 象 由 ) 包含 的 对 象 江 ): 


dbo. DinReseller 了 dbo. DinCustoner 
国 dbo. DinsalesReason 

国 dbo. DinSalesTerritory 
国 ab DinSeenario 

国 dbo. FactCurrencyBate 
图 dbo, FactFinance 

国 tb。 FactInternetSalesR. 
DD dbo, FactResellerSales 
国 dbo. FastSalesguota 

图 dbo. ProspectiveBuyer 
国 dbo. vAssocSeqLineTtens 
国 dbo. vAssocSeq0rders 
| hn wNMPren 


maw | I 


若 纱 落 洲 潮 潮 洲 洲 济济 潮 洲 洲 | 


< 上- 步 @) | “到 少 有 


图 3.21 定义 数据 源 视 图 


在 定义 好 的 数据 源 视 图 中 可 以 修改 表 的 默认 名 称 ( 右 击 要 改名 的 表 , 从 弹出 的 快捷 菜单 
中 选择 “属性 ”命令 ) ,让 视图 更 易 理解 ,如 图 3. 22 所 示 。 


4. 定义 多 维 数据 集 


右键 单 击 “ 多 维 数据 集 ”, 从 弹出 的 快捷 菜单 中 选择 “新 建 多 维 数据 集 ” 命 令 ; 已 选中 “使 
用 数据 源 生成 多 维 数据 集 ” 选 项 和 “自动 生成 ”选项 ; 在 "时间 维 度 表 ” 下 拉 列 表 中 选择 “时 
间 ” 别 名 (如 图 3. 23 所 示 )。 

下 一 步 设置 时 间 维 , 将 时 间 属 性 名 称 映射 到 已 指定 为 "时间 ?维度 的 维度 表 中 的 相应 列 ， 
如 图 3. 24 所 示 。 
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;加 > 回国 | 汪 竹 隐 |9 Pj im | 可 字 关 园 忆 - 吕 
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图 3.22 数据 源 视图 (包括 星 型 图 ) 


‘5x 


标识 事实 数据 表 和 维度 表 
标识 数据 源 视 图 中 的 事实 数据 表 和 维度 表 。 也 可 以 指定 时 间 锥 度 


时 间 维度 表 GD) a 中 
全 一 耻 关 系 图 | 


[5 dbo. DinCustoner 
全 abe DinGeogr aphy 

’ dbe Dinproduct 

全 dbo.DinTine 

国 tb。.FactInternetSales 


‘<5w |[ 下 步 四 >》| 5 下 | 了 网 


图 3. 23 标识 事实 数据 表 和 维度 表 界 面 
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oly 
选择 时 间 段 
根据 所 选 列 创建 时 间 维度 层次 结构 . 
Wy 


CalendarYear 
CalendarSemester 
季度 CalendarQuarter 


月 份 nglishllonthNane 
日 期 FullDateAlternateKey 


js 
‘i-5® |[ Fw> | 关中? 取消 


图 3.24 选择 时 间 段 


选择 事实 表 的 度量 值 (去 掉 不 是 度量 值 的 列 ) ,可 以 对 度量 值 重新 命名 ,如 图 3. 25 
所 示 。 


GEEETEEEEEEEE olxl 


择 度量 值 
选择 要 包含 在 多 维 数据 集中 的 度量 什 。 


FF wl Fromotior Key 
FT wl Corrency Key 

FF wl Sales Territory Key 
FF wl Revision Nanber 


ol 产品 总 成 本 
|EEEE 5 a 
ol 税额 db Taxhnt 本 


《上 -四 | 下 上 四 > | sw0%1 | mW | 


图 3.25 选择 度量 值 


区 
区 
区 
区 
也 wl 产品 标准 成 本 
区 
区 
区 


设置 和 校 验 维度 的 属性 及 层次 结构 ,在 “查看 新 建 维度 ”页 上 ,通过 展开 树 控 件 显示 该 向 
导 检 测 到 的 三 个 维度 的 层次 结构 和 属性 ,查看 其 中 每 个 维度 的 维度 层次 结构 (可 根据 需要 去 
掉 部 分 维度 属性 ) ,如 图 3. 26 所 示 。 
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9x 


查看 新 建 维度 
查看 新 于 维 度 的 结构 并 根据 需要 进行 更 站 
大: 一 


rench Description 
inese Description 
abic Description 
sbrew Description 
Thai Description 
上 Start Date 
你 如 End Date 
Sstatus 
昌 区 区 时 间 

日 [” 芒 层次 结构 

团 区 总 clenasrfesr - CalendarSenester - CalendarQusrter - EnelisNlonthiane -FullD， 


回民 加 属性 


图 3.26 设置 和 校 验 维度 属性 


在 “完成 向 导 ” 页 上 ,将 此 多 维 数据 集 的 名 称 更 改 为 “销售 分 析 多 维 数据 集 ”, 单 击 “ 完 成 ” 
按钮 , 便 完成 了 多 维 数据 集 的 定义 ,此 时 仍 可 以 对 维度 或 度量 等 名 称 作 更 改 ,以 便 最 终 用 户 
理解 与 使 用 。 图 3. 27 显示 了 多 维 数据 集中 的 维度 表 和 事实 数据 表 ( 事 实数 据 表 是 黄色 的 ， 


维度 表 是 蓝 色 的 )。 


9 销售 分 析 示例 -Nicrosoft Vi 本 
ET 可 项 上 @) ET 调式 WW) 格式 @) 轩 要 床 以 洲 秀 源 视图 多 ) 多 维 数 交 来 QD 工 具 GD) 窗口 和 社区) 帮助 0 


ET ND 


| 请 仿 分机 视图 cobe 
图 马 , 中 


和 | 友和 榈 | 91 地 帮 用 法 | 约 计 蕴 | |@ mn | | | | ia 加 
ETITPEOETIEEOIETIEEEEES 了 
他 销售 分 析 数据 源 ds 


和 
日 
启 ， 训 和 给 站 所 入 
日 


3.27 多 维 数据 集 的 结构 
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在 维度 设计 器 的 “维度 结构 ?选项 卡 上 ,可 以 添加 、 删 除 和 编辑 层次 结构 、 级 别 和 属性 ,如 
图 3. 28 所 示 。 


文件 中 编 辐 如 视图 妇 J 项目 QE] 生成 调式 四 ) 格式 四 ) 相 括 库 人 ) 数 夯 涯 视图 GE) 扒 度 如 工具 中 窗口 中 社区 C) 帮助 中 
闭 " 回 罗 |# 己 辐 | 柯 - moment | 本子 人 加 局- 襄 


加 隐 TETIECRITOEEETESETEEESESS 
8 1 | mn 
Bal xX|9ml Qs. 


3 


图 3.28 订单 日 期 时 间 维度 的 编辑 


5. 部 署 "销售 分 析 示 例 "项目 


若 要 查看 刚才 建立 的 销售 分 析 多 维 数据 集中 的 数据 ,必须 将 其 所 在 的 项 目 部 署 到 分 析 
服务 (Analysis Services) 的 指定 实例 ,然后 可 以 处 理 多 维 数据 集 及 其 维度 。 

(1) 部 署 配置 

在 解决 方案 资源 管理 器 中 ,右键 单 击 根 结 点 “销售 分 析 示 例 ” 项 目 , 从 弹出 的 快捷 菜单 中 
选择 “属性 ”命令 。 在 弹出 的 对 话 框 中 更 改 “ 数 据 库 ?对 应 值 为 Analysis Services, 如 图 3. 29 
所 示 。 


EE 
村 加 [EDwawea 可 于 站 DLReseso | 
日 目标 
内 部 版 本 服务 器 lecalhest 
9 EE 1 sei 
日 选项 
处 理 选项 默认 值 
事务 性 部 署 False 
部 署 模式 羽 部 署 更 疏 


多 用 库 
将 部 署 各 alysis Services 对 象 的 inalysis Services 数据 库 


取消 ER 下 


3.29 项 目 部 署 的 配置 属性 
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(2) 部 署 项 目 

在 解决 方案 资源 管理 器 中 .右键 单 击 “ 销 售 分 析 示 例 ” 项 目 , 从 弹出 的 快捷 菜单 中 选择 
“部 署 "命令 ,或 者 在 菜单 栏 上 选择 “生成 "菜单 , 单 击 “ 部 署 销售 分 析 示 例 ”。 

若 服务 器 没有 安装 Analysis Services 或 没 启动 数据 库 服 务 器 ,将 报错 “无 法 建立 连接 ”， 
进而 部 署 失败 。 


查看 “ 


输出 ”窗口 和 “部 署 进度 - 销售 分 析 示例 ”窗口 的 内 容 , 验 证 是 否 已 生成 .部 署 完 成 


多 维 数据 集 , 没 有 出 现 错误 , 且 在 右 下 角 显 示 * 部 署 成 功 完成 ? 即 表示 部 署 成 功 。 如 图 3. 30 


所 示 。 


文件 加 机 得 四 ”视图 中 ) 
加 -四 加 |j4 间 如 | 9 -CC -| |nvaoeeat -| 宁可 类 国 刁 - 


项 目下 ) 生成 四 滑 式 对 夺 库 和 ) 工具 GD) 从 口 @) 社区 加 ) 


帮助 0 


:] 


二 
于 | 一 铺 告 分 析 视 图 4sy 【设计 ] “ 钠 售 分 析 视 图 . cabe [设计 ][ 产品. dsm [设计 ] 『 时间. dn [设计 ] 起 站 页 ， EX 
多 扒 数 据 集 结构 | 全 推 度 用 法 计算 | 只 Ts 染 作 分 区 通 视 翻译 浏览 器 名 | 由 
晶 所 百 [Bs | | 民间 | 包 2 区 | 印加 4 | 虽 mx | 忆 一 


及 | 天 误 口 "| 嫌 野 |X*#| 习 国 局 Q* 名 * 


EL 
加 区 发 货 日 明 


图 区 


长 
日 而 


对 挫 度 “时 间 ” 的 处 理 已 成 
对 多 维 激 略 集 “ 销 管 分 析 区 | 


加 才 P 
区 可 单 日 央 
过 TB 
斌 产品 


证 学 属性 | < 部 署 进度 | 


图 3.30 项 目 部 署 信息 


6. 浏览 已 部 署 的 多 维 数 据 集 


部 署 完 成 后 ,就 可 以 浏览 多 维 数据 集中 的 实际 数据 了 。 浏 览 “ 销 售 分 析 示 例 ” 多 维 数据 
集 及 其 每 个 维度 ,以 确定 为 了 改进 此 多 维 数据 集 的 功能 而 需要 执行 的 更 改 。 
在 解决 方案 中 单 击 “ 客 户 ” 维 度 , 然 后 选择 “浏览 器 ”选项 卡 。 


在 这 是 


且 , 可 以 从 各 个 角度 (如 国家 、 省 / 州 、 姓 氏 甚 至 电话 号 码 等 ) 浏 览 客户 结构 ,现在 有 


关 “ 客 户 ” 级 别 的 信息 只 显示 客户 的 电子 邮件 地 址 ,而 不 显示 客户 的 姓名 ,需要 通过 后 面 的 更 
改 显示 客户 姓名 。 按 省 州 分 类 浏览 客户 如 图 3. 31 所 示 。 
单 击 在 解决 方案 的 “多 维 数据 集 ” 目 录 下 的 子 项 “销售 分 析 图 . cube”, 切 换 到 “浏览 器 ” 选 


项 卡 ,内 容 
筛选 器 , 右 


区 分 为 三 个 窗口 : 左边 窗口 显示 事实 表 和 维度 表 的 元 数据 信息 ,右上 窗口 为 维度 
下 窗口 为 报表 数据 显示 窗口 。 如 图 3. 32 所 示 。 


浏览 多 维 数据 集 的 操作 方法 : 从 元 数据 窗口 拖 动 有 关内 容 到 右边 数据 显示 区 或 筛选 
器 中 即 可 形成 一 个 初步 的 报表 ,虽然 还 很 粗糙 ,特别 是 显示 格式 等 有 待 在 后 续 的 操作 中 


改进 。 
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图 3.31 按 省 州 分 类 浏览 客户 


2 Ey 四 ELT ED 调式 @) 小 和 库 WA) 多 瓜 匠 天 QD 工具 CD) 禄 口 中 社区 C5) 帮助 0 
MT EY TRA kM | 


Cr ML | 
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EEEEEIC LS EFE EI I EA 上 
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田 革 订单 期 季度 
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EE 
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图 3.32 浏览 多 维 数据 集 界面 


图 3. 32 所 示 的 展示 数据 的 操作 步骤 如 下 。 

(1) 将 事实 表 中 的 “销售 额 ” 度 量 值 拖 到 数据 显示 区 的 “将 合计 或 详细 信息 字段 拖 至 此 
处 ?区域 。 

(2) 将 客户 维度 表 的 “英语 国家 /地 区 区 域名 ”属性 层次 结构 拖 到 数据 显示 区 的 “将 行 字 
段 拖 至 此 处 ”区 域 。 

(3) 将 产品 维度 表 的 “产品 系列 (Product Line)” 拖 到 数据 显示 区 的 “将 列 字 段 拖 至 此 
处 ”区域 ; 或 者 右键 单 击 “ 产 品系 列 ”, 从 弹出 的 快捷 菜单 中 选择 “添加 到 列 区 域 "命令 。 

(4) 将 “订单 日 期 "维度 的 “季度 ” 拖 到 数据 显示 区 的 “将 筛选 器 字段 拖 至 此 处 ”区 域 ,并 
单 击 “季度 ”下 拉 框 ,不 选 第 4 季度 ( 即 报表 只 需要 1 一 3 季度 的 数据 ) 。 


84 | 
国 据 仓库 与 数据 挖掘 


(5) 右键 单 击 “ 订 单 日 期 "维度 的 年度” 属性 层次 结构 中 的 2002 成 员 , 然 后 单 击 “ 添 加 
到 子 多 维 数据 集 区 域 "。 再 单 击 “ 筛 选 表达 式 ” 下 单元 格 的 下 拉 框 , 复 选 2003 和 2004 年 度 ， 
即将 选择 2002、2003 和 2004 这 三 年 的 数据 作 报表 。 


7. 提高 多 维 数据 集 的 可 用 性 和 易 用 性 


(1) 修改 度量 值 的 有 关 属 性 。 例 如 ,将 多 维 数据 集中 的 货币 和 百分比 度量 值 指定 格式 
设置 属性 。 在 “多 维 数据 集结 构 ? 选 项 卡 中 修改 度量 值 属性 后 ,需要 在 “浏览 器 ”选项 卡 中 单 
击 “ 重 新 连接 ”, 才 能 看 到 更 新 后 的 格式 ,如 图 3. 33 所 示 。 


属性 
es | 亡 旷 |X * re 


Ager egateFunction Sam 
DataType Inherited 
DisplayFolder 
MeasureExpression 

Visible True 


FactInternetSales. 


Stete Provinee Bone 
tor i 


蕊 蚀 误 列 表 指 芝 关 和 基本 从 时 使 有 的 性 式 。 
图 3.33 修改 度量 值 的 显示 格式 为 999 999. 00 


(2) 修改 维度 的 层次 结构 和 有 关 属 性 。 例 如 ,修改 “客户 ?维度 的 层次 结构 .删除 没有 用 
的 属性 等 。 切 换 到 “客户 ”维度 的 维度 设计 器 ,并 选择 “维度 结构 ”选项 卡 , 删 除 不 使 用 的 属 
性 ,将 剩 下 的 属性 改 为 汉字 名 ,以 便于 最 终 用 户 的 理解 与 使 用 ,如 图 3. 34 所 示 。 


TCRCETSETEE 


马 忆 | 四-X| 刁 国 | 忆 及 -3 - 
[层次 结构 和 铺 别 


”| 将 月 动 新 的 层次 结构 0 
设置 属性 用 法 。 》 
属性 显示 方式 了) 


图 3.34 修改 客户 维度 的 属性 (改名 或 删除 等 操作 ) 
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(3) 增加 维度 属性 。 并 对 维度 属性 分 组 。 例 如 ,在 “客户 ”维度 的 “维度 结构 ”选项 
卡 上 ,将 EmailAddress 列 从 “数据 源 视图 ” 窗 格 的 Customer 表 拖 动 到 “特性 ” 窗 格 中 ( 添 
加 电子 邮件 属性 ); 通过 按 住 Ctrl 键 选择 电子 邮件 和 电话 两 个 属性 ,然后 将 其 
AttributeHierarchyDisplayFolder 设置 为 “联系 人 "(实现 维度 属性 分 组 ) ,如 图 3. 35 所 示 。 


区 维度 结构 |L 部 泽 | 坛 浏览 器 加 | 车 
ETIEEOETDIEEEETE 国生 习 上 
一 一 日 Advanced 国内 
层次 结构 和 久别 OrderByAttribute 殴 
加 st hb LL - 坟 Eis 加 
[A state Provinee Heme sitpete NonLeafDatayi | 凶 
地 理 WembersWithDataC aption 
,客户 aningTemplate 攻 j 
新 级 别 RootlemberI£ FarentIsBlany | 沿 
日 高 级 te 
[rr 人 | 
AttributelierarchyEnabl, True 上 
A Attribut olierarchyOptim: FullyOptinize |e 
若 要 创 津 新 的 层 3 Attribut eierarchyVisib: True 网 
性 交 星 到 
AttributelierarchyDispleyFolder 
i 示 文 件 夹 ( 供 客户 端 应 


图 3.35 给 客户 维度 增加 电子 邮件 属性 并 分 组 


(4) 将 命名 计算 列 作 为 维度 的 成 员 名 称 。 编 辑 数 据 源 视图 的 客户 表 , 右键 单 击 
Customer, 从 弹出 的 快捷 菜单 中 选择 “新 建 命 名 计算 ”命令 ,增加 计算 列 “ 全 名 ”, 如 图 3. 36 
所 示 。 并 将 “客户 ?级 别 的 每 个 成 员 名 称 ( 客 户主 键 ) 改 为 客户 的 “全 名 ”( 原 来 默认 为 客户 的 
电子 邮件 地 址 ) ,如 图 3. 37 所 示 。 


图 创建 命名 计算 olxl 


ASE 

WHEN MiddleNane IS NULL THEN 
FirstNane + + LastHane 
ELSE 


FirstNane + “+ MiddleName + + LastHane 


图 3.36 增加 计算 列 “ 全 名 ” 


(5) 重新 部 署 并 查看 更 改 。 在 BI Development Studio 的 “生成 ”菜单 上 , 单 击 “部 署 销 
售 分 析 示 例 ”。 部 署 完 成 后 ,再 打开 客户 维度 的 浏览 器 ,可 以 发 现 显 示 的 客户 标识 内 容 已 不 
再 是 电子 邮件 地 址 ,而 是 客户 的 全 名 (First Name 十 Middle Name 十 Last Name) ,如 图 3. 38 
所 示 。 
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文件 四 ， 编 竹 国 视图 WW 项目 生成 四 滑 坛 0) 尖 亩 加 的 席 呈 工具 C) 突 口 们 社区 C) 内 助 04 
辐 - 回 各 | 关 包罗 | 本 -人 -| |ierelomat -| 可 李 天 回忆 - 


——— = x ri 


IL 可 | 
刘 客户 DimensionAttribute 一 多 
上 
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谭 

sses Key 到 种 

日 源 EE 

CastomRollwpColwmn 夸 ) 上 

CustonRollupPropertiesColonn FE) 中 | 


KeyColunns DinCustoner. Custonerkey Cnte 
tomer 全 名 (YChar) 


Tarital Status 

Yo Enelish Edueatio 

To Tearly Ineome 
全 名 


Ta Birth Date 
Ye Date First Pur 
Ye Last Yone 
Yo Total Children 
藉 建 展 性 关系 
田 器 年 收入 


EL 273 


图 3.37 更 改 客户 主键 的 Column ID 为 “全 名 ” 列 


要 户 . di [设计 J 一 一 cube [MIT] T xX 


eT 
Misha 6 Tm ~ 


7 @ Mishs J Shen 


/Ohndre Sanchez \ 
国 Andy Gomer 
@ Mrthur Suri 
B Barbars Beck 


国 Bonnie ER Sharma 
O Brandi c Hernander / 
~\®@ Brandy s Loper . 


证 Carla J Gonrzalez 一 
9 E 


图 3.38 客户 的 标识 内 容 (Column ID) 已 由 电子 邮件 改 为 全 名 


(6) 灵活 快速 地 导出 各 类 统计 报表 。 在 多 维 数据 集 建立 完成 后 ,就 可 以 快速 灵活 地 导 
出 针对 该 主题 的 各 类 统计 报表 ,通常 只 需 将 左边 多 维 数据 集 窗口 中 的 度量 值 或 维度 属性 根 
据 需 要 拖 忠 到 右边 的 数据 显示 区 或 第 选 器 中 , 即 可 设置 好 度量 指标 、 筛 选 条 件 和 分 组 条 件 ， 
产生 满足 各 种 需要 的 报表 。 

如 图 3. 39 所 示 ,将 订单 数量 作为 度量 指标 ,将 月 份 作为 行 字段 分 组 条 件 ,将 国 别 作为 列 
字段 分 组 条 件 ,将 家 庭 子女 数 作为 筛选 字段 ,并 在 筛选 器 中 添加 一 个 "客户 ”维度 的 筛选 条 
件 , 即 要 求 客户 年 收入 大 于 等 于 10 万 元 。 设 置 好 这 些 内 容 后 , 便 可 立即 得 到 一 个 统计 报表 ， 


第 3 章 人 


即 按 国 别 月份 分 组 统计 年 收入 不 低 于 10 万 的 独生子 女 家 庭 的 订单 数量 的 分 布 情况 表 。 


99 销售 分 析 示 例 - Wicrosoft Visuel Studie 
文件 妈 ”编辑 生 视图 WD 项目 四 生成) 调试 加) 数据 库 忆 ) 多 六 数据 集 W) 工具 YI) 窗口 四 社区 人 帮助 人 D 


国 - 回 各 | #4 电 史 | 中- 人 -Plimemt | 呈 守 关 因 品 - 品 
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哆 多 扒 数 据 梨 结构 | 到 维度 用 法 | 国 计算 | 二 Ts | 国 指 作 | 龟 和 区 | 团 运 议 | 号 加 本 | 同 列 8 要 晶 
ls 和 EREEE 上 | [位 到 上 
日 区 订单 天 其 日 a 中 
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田 器 订单 到 期 日. 月份 加 
加 总 订单 到 央 日 年 -半年 - 季 - ee 
世 订单 日 其 - ba 
F 利 | ton [straLiS aa ed Kingdonlinited States| 总 计 四 
月 份 ”> 可 捍 数 十 “可 说 数量 “可 率 数 是 | 林 皇 天生 。。 | 呆 匣 天 语 四 
上 器 订单 央 地 多 2 加 1 
田 器 订单 其 .年度 et |29 S 1 到 54 -| 
田 器 订单 E 期 .日 其 ee 名 2 57 101 EE 
田 站 订 间 风月 站 5 5 6 Tm ec 
六 订单 日 期 .年 -半年 - 季 - 月 49 T4 123 行 成 员 : April 
田 区 Ssem 加 4 8 | 成员: 生计 
2 2 101 128 上 子女 数 = 1 
30 2 上 116 ellOrdinal: 0 
四 名 gh ss 可 145 VALVE: 142 
日 访 位置 37 5 8 7 127 FORMATTED_VALVE: 142 
E 器 城 布 24 4 71 99 FORE_COLDR: (null) 
GG 国 别 了 58 4 69 131 BACK_COLDR: (null) 
固 区 成 员 站 4656 EE: 33 1378 POWT_NAME; (nul1) 
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图 3.39 按 国 别 、 月 份 分 组 统计 年 收入 不 低 于 10 万 的 独生子 女 家 庭 的 订单 数 分 布 情况 


3.4 小 结 


本 章 主要 介绍 了 数据 仓库 的 设计 与 开发 过 程 。 

建立 一 个 数据 仓库 系统 通常 需要 经 历 收集 与 分 析 业 务 需 求 ,建立 数据 仓库 的 概念 和 退 
辑 模型 ,对 数据 仓库 作物 理 设 计 、 定 义 数 据 源 .选择 数据 仓库 技术 与 平台 数据 的 ETL 处 理 、 
选择 数据 分 析 与 数据 展示 软件 .数据 仓库 的 更 新 设计 等 步骤。 

数据 仓库 应 用 系统 的 开发 包括 两 个 主要 部 分 ,一 是 数据 仓库 数据 库 的 开发 与 设计 ,用 于 
存储 数据 仓库 的 数据 ; 二 是 数据 分 析 应 用 系统 的 开发 。 可 使 用 信息 包 图 法 、 运 用 信息 包 图 
法 进行 概念 模型 设计 ; 利用 星 型 图 进行 数据 仓库 的 逻辑 模型 设计 。 

最 后 介绍 了 使 用 SQL Server 2005 建立 数据 仓库 首先 要 配置 环境 ,然后 建立 多 位 数据 
模型 。 


3.5 习题 


1. SQL Server SSAS 提供 了 所 有 业务 数据 的 统一 整合 视图 ,可 以 作为 传统 报表 、 
\ 关 键 性 能 指示 器 记分 卡 和 数据 挖掘 的 基础 。 
2. 数据 仓库 的 概念 模型 通常 采用 来 进行 设计 ,要 求 将 其 5 个 组 成 部 分 (包括 
名 称 、 \ 层 次 和 ) 全 面 地 描述 出 来 。 
3. 数据 仓库 的 通常 采用 星 型 图 法 来 进行 设计 ,要 求 将 星 型 图 的 各 类 逻辑 实体 
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完整 地 描述 出 来 。 
4. 按照 事实 表 中 度量 的 可 加 性 情况 ,可 以 把 事实 表 对 应 的 事实 分 为 4 种 类 型 ， 
和 事件 事实 。 
5， 确定 了 数据 仓库 的 粒度 模型 以 后 ,为 提高 数据 仓库 的 使 用 性 能 ,还 需要 根据 用 户 需 
求 设计 


6. 在 项 目 实施 时 ,根据 事实 表 的 特点 和 用 户 的 查询 需求 ,可 以 选用 \ 业 务 类 
型 、 和 下 属 组 织 等 多 种 数据 分 割 类 型 。 

7. 当 维 表 中 的 主键 在 事实 表 中 没有 与 外 键 关 联 时 ,这 样 的 维 称 为 。 它 与 事实 
表 并 无 关系 ,但 有 时 在 查询 限制 条 件 ( 如 订单 号 码 .出 货 单 编号 等 ) 中 需要 用 到 。 

8. 维度 可 以 根据 其 变化 快慢 分 为 维度 、 维度 和 维度 三 类 。 


9. 数据 仓库 的 数据 量 通常 较 大 , 且 数 据 一 般 很 少 更 新 ,可 以 通过 设计 和 优化 
结构 来 提高 数据 存 取 性 能 。 

10. 数据 仓库 数据 库 常 见 的 存储 优化 方法 包括 表 的 归并 与 篮 文 件 、 ` 表 的 物理 
分 割 ( 分 区 )。 

11. 什么 是 信息 包 图 法 ? 它 为 什么 适用 于 数据 仓库 的 概念 模型 的 设计 ? 

12. 简 述 数据 仓库 系统 设计 过 程 。 

13. 一 个 数据 仓库 系统 的 建立 通常 需要 经 过 哪些 步 又 ? 

14. 运行 SQL Server 的 Adventure Works DW 示例 数据 库 ,建立 多 维 数据 模型 练习 。 


关联 规则 第 4 章 


关联 规则 挖掘 (association rule mining) 是 数据 挖掘 中 最 活跃 的 研究 方法 
之 一 ,最 早 是 由 R. Agrawal 等 人 针对 超市 购物 篮 (market basket) 分 析 问 题 
提出 的 ,其 目的 是 为 了 发 现 超市 交易 数据 库 中 不 同 商品 之 间 的 关联 关系 。 

一 个 典型 的 关联 规则 的 例子 是 : 70% 购 买 了 牛奶 的 顾客 将 倾向 于 同时 购 
买 面包 。 这 些 规则 体现 了 顾客 购物 的 行为 模式 .发现 这 样 的 关联 规则 可 以 为 
经 营 决 策 ,市 场 预 测 和 策划 等 方面 提供 依据 。 

经 典 的 关联 规则 挖掘 算法 包括 Apriori 算法 和 FP-growth 算法 。Apriori 
算法 多 次 扫描 交易 数据 库 , 每 次 利用 候选 频繁 集 产生 频繁 集 ; 而 FP-growth 
则 利用 树 形 结构 ,无须 产生 候选 频繁 集 而 是 直接 得 到 频繁 集 ,大 大 减少 扫描 
交易 数据 库 的 次 数 ,从 而 提高 了 算法 效率 。 但 是 ,Apriori 算法 扩展 性 较 好 ， 
可 以 用 于 并 行 计算 等 领域 。 

目前 对 关联 规则 的 研究 集中 于 关联 规则 的 挖掘 理论 的 探索 、 原 有 算法 的 
改进 和 新 算法 的 设计 ,从 而 不 断 提高 关联 规则 挖掘 算法 的 效率 、 适 应 性 和 可 
用 性 。 并 且 数 量 关 联 规则 挖掘 、 并 行 关联 规则 挖掘 和 关联 规则 更 新 等 问题 也 
是 研究 热点 。 关 联 规则 挖掘 系统 已 成 功 被 应 用 于 市 场 营销 、 银 行业 、 零 售 业 、 
保险 业 、 电 信 业 和 公司 经 营 管理 等 各 个 方面 。 


4.1 概述 


随 着 计算 机 技术 在 超市 中 的 应 用 ,超市 可 以 利用 商品 的 条 形 码 存储 每 一 
笔 交 易 记 录 。 这 些 记录 详细 地 存储 了 每 个 顾客 每 次 交易 的 时 间 、 商 品 、 数 量 
和 价格 等 信息 。 商 家 希望 通过 交易 记录 发 现 用 户 的 购买 行为 模式 或 是 消费 
倾向 ,例如 购买 了 某 一 商品 后 对 购买 其 他 商品 的 影响 等 ,从 而 商家 可 以 利用 
关联 规则 提供 的 信息 对 商品 摆 放 、 库 存 管理 和 促销 活动 等 方面 提供 决策 依 
据 。 例 如 ,把 用 户 经 常 购买 的 商品 摆 放 在 一 起 ,方便 用 户 购 买 ; 或 者 将 用 户 分 
类 ,在 商品 销售 方面 做 各 种 促销 活动 和 广告 宣传 时 更 有 针对 人 性 。 

关联 规则 挖掘 最 初 由 有. Agrawal 等 人 提出 ,用 来 发 现 超级 市 场 中 用 户 购 
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买 的 商品 之 间 的 隐 含 关联 关系 ,并 用 规则 的 形式 表示 出 来 , 称 为 关联 规则 (association rule) 。 

关联 规则 挖掘 的 一 个 经 典 案例 是 关于 “尿布 与 啤酒 ”的 故事 。 美 国 的 沃尔玛 超市 拥有 世 
界 上 最 大 的 数据 仓库 系统 , 它 利 用 关联 规则 挖掘 工具 对 数据 仓库 中 一 年 多 的 原始 交易 数据 
进行 了 详细 的 分 析 , 得 到 一 个 意外 发 现 : 与 尿布 一 起 被 购买 最 多 的 商品 竟然 是 啤酒 。 借 助 
于 数据 仓库 和 关联 规则 ,商家 发 现 了 这 个 隐藏 在 背后 的 事实 : 美国 的 妇女 们 经 常会 嘱 听 她 
们 的 丈夫 下 班 以 后 要 为 孩子 买 尿 布 , 而 30%~~40% 的 丈夫 在 买 完 尿 布 之 后 又 要 顺便 购买 自 
己 爱 喝 的 啤酒 。 有 了 这 个 发 现 后 ,超市 调整 了 货架 的 设置 ,把 尿布 和 啤酒 摆 放 在 一 起 销售 ， 
从 而 大 大 增加 了 销售 额 。 

关联 规则 除了 可 以 发 现 超市 购物 中 隐 含 的 关联 关系 之 外 ,还 可 以 应 用 于 其 他 很 多 领域 。 
关联 规则 的 应 用 还 包括 文本 挖掘 ,商品 广告 邮寄 分 析 和 网 络 故障 分 析 等 。 


4.2 引 例 


首先 以 超市 交易 数据 库 为 例 , 引 入 关联 规则 的 相关 概念 。 假 定 某 超 市 销售 的 商品 包括 
bread ,beer、cake、cream、milk 和 tea, 超 市 的 每 笔 交 易 数 据 如 表 4. 1 所 示 。 


表 4.1 超市 交易 数据 库 D 


交易 号 TID 顾客 购买 商品 Items 交易 号 TID 顾客 购买 商品 Items 
T1 bread cream milk tea T6 bread tea 
T2 bread cream milk T7 beer milk tea 
T3 cake milk T8 bread tea 
T4 milk tea T9 bread cream milk tea 
T5 bread cake milk T10 bread milk tea 


【定义 4.1】 项 目 与 项 集 。 

设 I 二 (i,is，…,im) ,是 m 个 不 同 项 目的 集合 .每 个 庆 (k 二 1,2,…,m) 称 为 一 个 项 目 
(item)。 项 目的 集合 I 称 为 项 目 集 合 (itemset) .简称 为 项 集 。 其 元 素 个 数 称 为 项 集 的 长 度 ， 
长 度 为 k 的 项 集 称 为 -项 集 (k-itemset)。 

对 应 于 表 4. 1 所 示 的 超市 交易 数据 库 , 则 每 个 销售 商品 就 是 一 个 项 目 ,超市 中 出 售 的 所 
有 商品 的 项 集 为 


T= {bread ,beer,cake,cream,milk .tea} 

该 超市 出 售 6 种 商品 , 即 项 集 工 中 包含 6 个 项 目 , 即 工 的 长 度 为 6。 对 于 项 集 {cake， 
milk) ,由 于 包含 了 2 个 项 目 , 则 称 为 2- 项 集 。 

【定义 4.2】 交易 。 

每 笔 交 易 T(transaction) 是 项 集 T 上 的 一 个 子 集 , 即 TST, 但 通常 TCI。 对 应 每 一 个 
交易 有 一 个 唯一 的 标识 一 一 交易 号 , 记 作 TID。 交 易 的 全 体 构 成 了 交易 数据 库 DD, 或 称 交易 
记录 集 D, 简 称 交易 集 D。 交 易 集 D 中 包含 交易 的 个 数 记 为 1D|。 

表 4.1 所 示 的 交易 记录 集 DD 中 包含 10 笔 交 易 : T1~~T10, 则 |D| 二 10。D 是 每 笔 交 易 
T 的 集合 , 工 是 项 目的 集合 。 顾 客 在 商场 里 一 次 购买 多 种 商品 ,这 些 购物 信息 在 数据 库 中 有 
一 个 唯一 的 标识 TID, 用 以 表示 这 些 商 品 是 某 一 顾客 同一 次 购买 的 , 则 称 该 顾客 的 本 次 购物 
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活动 对 应 一 笔 交 易 。 每 笔 交易 中 ,顾客 购买 的 商品 集合 ( 即 项 集 ) ,是 所 有 商品 集合 的 子 集 。 

如 第 三 笔 交易 ,交易 号 为 T3, 是 一 个 2- 项 集 {milk, cake}, 是 所 有 商品 的 项 集 工 一 
{bread,beer,cake,cream,milk,tea} 的 一 个 子 集 。 

【定义 4.3】 项 集 的 支持 度 。 

对 于 项 集 X,XCT, 设 定 count(XST) 为 交易 集 D 中 包含 X 的 交易 的 数量 ,1D| 为 交 
易 集 D 中 包含 的 所 有 交易 的 数量 , 则 项 集 X 的 支持 度 (support) 定 义 为 


count(X CT) 
医 2 


项 集 X 的 支持 度 support(CX) 就 是 项 集 X 出 现 的 概率 ,从 而 描述 了 X 的 重要 性 。 
例如 ,对 于 2- 项 集 X={bread,milk} ,出 现在 T1,T2,T5,T9 和 T10 中 , 则 
count(X) = count(T1,T2,T5,T9,T10) 一 5 
总 交易 个 数 1D| 二 10, 则 


support(X) = (4-1) 


同 理 , 对 于 1- 项 集 X 一 {bread},support(X) 一 三: 对 于 2- 项 集 久 = 二 {cake, milk})， 
supportCX) 一 尼 。 

【定义 4.4】 项 集 的 最 小 支持 度 与 频繁 集 。 

发 现 关 联 规则 要 求 项 集 必 须 满足 的 最 小 支持 阀 值 , 称 为 项 集 的 最 小 支持 度 C(minimum 
support), 记 为 supws 。 从 统计 意义 上 讲 , 它 表示 用 户 关心 的 关联 规则 必须 满足 的 最 低 重要 
性 。 只 有 满足 最 小 支持 度 的 项 集 才 能 产生 关联 规则 。 

支持 度 大 于 或 等 于 supwa 的 项 集 称 为 频繁 项 集 ,简称 频繁 集 , 反 之 则 称 为 非 频 繁 集 。 通 
常 上 项 集 如 果 满 足 supwn , 称 为 -频繁 集 , 记 作 Le 。 

例如 , 若 用 户 只 对 支持 度 在 0. 5 及 以 上 的 项 集 产生 的 关联 规则 感 兴趣 , 则 会 将 supmin 设 
定 为 0.5。 这 样 根据 在 定义 4. 3 中 的 计算 ,对 于 2- 项 集 Xi 二 {bread,milk}) , 则 可 以 称 为 2- 频 
繁 集 , 即 XICL:; 而 对 于 2- 项 集 Xs 二 {cake,milk) , 则 不 算是 2- 频 繁 集 , 即 X: 宇 La: 。 

但 如 果 用 户 将 最 小 支持 度 supmin 设 定 为 0.1, 则 {bread,milk} 和 {cake,milk} 都 算 做 2- 频 

【定义 4.5】 关联 规则 。 

关联 规则 (association rule) 可 以 表示 为 一 个 蕴涵 式 

R: X=>Y (4-2) 
其 中 : XCI,YCI, 并 且 XN 站 YY 一 名。 它 表示 如 果 项 集 义 在 某 一 交易 中 出 现 , 则 会 导致 项 集 
Y 按照 某 一 概率 也 会 在 同一 交易 中 出 现 。X 称 为 规则 的 条 件 ,Y 称 为 规则 的 结果 。 关 联 规 
则 反映 X 中 的 项 目 出 现时 ,Y 中 的 项 目 也 跟着 出 现 的 规律 。 

例如 ,规则 Ri : {bread} 一 {milk} ,规则 R,: {cream} 一 (1bread,milk} ,都 可 能 是 用 户 感 
兴趣 的 关联 规则 。 至 于 怎样 才 算 用 户 感 兴趣 的 关联 规则 ,利用 两 个 标准 来 衡量 : 关联 规则 
的 支持 度 和 可 信 度 。 

【定义 4. 6】 关联 规则 的 支持 度 。 

对 于 关联 规则 RR: X=>Y, 其 中 XCI,YCIT, 并 且 久 站 Y 二 久 , 规 则 R 的 支持 度 (support) 
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是 交易 集中 同时 包含 X 和 YY 的 交易 数 与 所 有 交易 数 之 比 。 记 为 supportCX=Y) , 即 


count(X UY) 
ID| 


支持 度 反 映 了 X 和 YY 中 所 含 的 项 在 交易 集中 同时 出 现 的 频率 。 由 于 关联 规则 必须 
频繁 集 产生 ,所 以 规则 的 支持 度 其 实 就 是 频繁 集 的 支持 度 , 即 


support( XY) = support(X UY)= su 


Support(X 一 Y) = (4-3) 


例如 ,车 supmis 二 0.5, 对 于 规则 Ri : {bread}) 二 {milk), 则 
support(R1) = support({bread,milk}) = 
而 对 于 规则 Ra: : {milk) 过 {bread) , 则 
support(R;) = support(R1) = support({bread,milk}) 一 小 
【定义 4.7】 关联 规则 的 可 信和 度 。 
对 于 关联 规则 R: X=>Y, 其 中 XCI,YCIT, 并 且 XY 二 名, 规则 R 的 可 信和 度 (confidence) 
是 指 包含 X 和 Y 的 交易 数 与 包含 X 的 交易 数 之 比 。 记 为 confidence(X 一 Y), 即 


confidence( X=>Y) 一 型 ort(X UY) (4-4) 
support(X) 


可 信和 度 反映 了 如 果 交 易 中 包含 X, 则 交易 中 同时 出 现 Y 的 概率 。 
例如 ,规则 Ri: {bread} 一 {milk} 的 可 信 度 是 


support( {bread.milk}) 1/2 5 
support( {bread)) 7/10 7 


而 规则 R;: {milk} 一 {bread} 的 可 信和 度 是 


support( {bread, milk} 1/2 5 
supprt({milk}) 8/10 8 


关联 规则 的 支持 度 和 可 信和 度 分 别 反 映 了 所 发 现 规则 在 整个 数据 库 中 的 统计 重要 性 和 可 
靠 程度 。 一 般 来 说 ,只 有 支持 度 和 可 信和 度 均 较 高 的 关联 规则 才 是 用 户 感 兴趣 的 有 用 的 关联 
规则 。 

【定义 4.8】 关联 规则 的 最 小 支持 度 和 最 小 可 信和 度 。 

关联 规则 的 最 小 支持 度 也 就 是 衡量 频繁 集 的 最 小 支持 度 (minimum support), 记 为 
supun ， 它 用 于 衡量 规则 需要 满足 的 最 低 重要 性 。 规 则 的 最 小 可 信和 度 (minimum confidence) 
记 为 confmn , 它 表 示 关 联 规则 需要 满足 的 最 低 可 靠 性 。 

【定义 4.9】 强 关联 规则 。 

如 果 规 则 X 过 >Y 满足 support(X=>Y) 三 supun 且 confidence(X 一 Y) 三 confu , 称 关 联 规 
则 X=>Y 为 强 关联 规则 ,否则 称 关联 规则 X=>Y 为 弱 关 联 规则 。 在 挖掘 关联 规则 时 ,产生 的 
关联 规则 要 经 过 supmis 和 confsis 的 衡量 .筛选 出 来 的 强 关联 规则 才能 用 于 指导 商家 的 决策 。 

例如 ,用 户 设 定 supm 一 0.5,confu 一 0.7, 则 根据 定义 4.7 中 的 计算 ,规则 Ri : {bread} 二 > 
{milk} 是 用 户 感 兴趣 的 强 关联 规则 ,而 规则 R: : {milk} 全 {bread} 是 弱 关 联 规则 。 从 而 商家 
可 以 确定 ,是 面包 和 牛奶 常常 一 起 被 购买 ,而 且 是 面包 的 销售 决定 了 牛奶 的 销售 。 


confidence(R1) 


confidence(R,) 
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4.3 经 典 算法 


关联 规则 用 于 解决 商家 关心 的 两 个 问题 : 哪些 商品 常常 被 一 起 销售 ,以 及 一 起 销售 的 
商品 中 ,存在 着 怎样 的 决定 与 被 决定 关系 。 

首先 ,利用 关联 规则 可 以 找到 哪些 商品 可 能 存在 相互 关系 ,也 就 是 常常 被 一 起 购买 的 商 
品 。 如 果 假 定 超过 30% 的 交易 中 同时 卖 出 某 些 商 品 , 就 认为 它们 相互 有 关系 , 则 可 以 发 现 
以 下 商品 常常 一 起 销售 : bread,milk,cream。 因 为 10 条 交易 记录 中 有 3 条 它们 同时 出 现 。 
这 说 明 这 几 种 商品 可 能 存在 相关 关系 ,用 户 倾向 于 同时 购买 这 3 种 商品 。 

其 次 ,顾客 买 这 3 种 商品 ,动机 是 先 买 了 哪个 然后 再 买 了 哪个 呢 ? 利用 关联 规则 ,可 以 
找到 它们 间 的 决定 关系 。 交 易 T1,T2 和 T9 同时 买 了 {bread,milk,cream) ,交易 T1,.7T2， 
T5,T9 和 T10 买 了 {bread,milk) ,说 明 只 有 3/5 的 交易 中 ,顾客 买 了 {bread,milk} 后 又 买 了 
cream。 而 买 了 cream 的 顾客 ,全 都 买 了 {bread,milk}。 由 此 可 以 得 出 结论 ,cream 的 销售 
决定 {bread, milk } 的 销售 。 可 以 用 一 个 关联 规则 表示 这 种 关联 和 决定 关系 : cream 二 
{bread, milk}。 

从 分 析 中 也 可 以 看 出 ,两 个 问题 中 的 第 一 个 , 即 发 现 哪些 商品 常常 一 起 出 现 比 第 二 个 问 
题 更 重要 ,也 是 关联 规则 研究 所 集中 的 地 方 。 

总 之 ,给 定 一 个 交易 集 DD, 挖 掘 关联 规则 问题 就 是 产生 支持 度 和 可 信和 度 分 别 大 于 用 户 给 
定 的 最 小 支持 度 和 最 小 可 信 度 的 关联 规则 。 关 联 规则 挖掘 问题 可 以 分 为 如 下 两 个 子 问题 。 

(1) 找 出 交易 数据 库 中 所 有 大 于 或 等 于 用 户 指定 的 最 小 支持 度 的 频繁 项 集 。 

(2) 利用 频繁 项 集 生成 所 需要 的 关联 规则 ,根据 用 户 设 定 的 最 小 可 信和 度 进行 取舍 ,产生 
强 关联 规则 。 

对 于 第 (2) 个 子 问 题 , 即 由 给 定 的 频繁 项 集 及 其 置信 度 产 生 关联 规则 相对 较为 容易 和 直 
观 , 因 此 目前 大 量 的 研究 工作 都 集中 在 第 (1) 个 子 问题 上 , 即 如 何 快速 有 效 地 找 出 数据 库 中 
的 频繁 项 集 , 它 是 关联 规则 挖掘 算法 最 复杂 的 问题 之 一 。 因 此 ,第 (1) 个 子 问题 是 关联 规则 
挖掘 算法 的 核心 。 

R. Agrawal 等 人 于 1993 年 首先 提出 挖掘 顾客 交易 数据 库 中 项 集 间 的 关联 规则 问题 ,并 设 
计 了 一 个 基本 算法 一 一 Apriori 算法 。 这 个 方法 要 求 多 次 扫描 可 能 很 大 的 交易 数据 库 , 即 如 果 
频繁 集 最 多 包含 10 个 项 ,那么 就 需要 扫描 交易 数据 库 10 遍 , 这 需要 很 大 的 IO 负载 。 

针对 Apriori 算法 的 弱点 ,J. Han 等 提出 了 不 产生 候选 集 来 挖掘 频繁 集 的 方法 一 一 
FP-growth 算法 。 这 种 算法 在 经 过 第 一 遍 扫描 之 后 ,利用 一 棵 频繁 模式 树 (FP-tree) 表 示 频 繁 集 ， 
从 而 产生 条 件 模 式 库 , 再 生成 规则 。 实 验 表 明 ,FP-growth 在 效率 上 比 Apriori 算法 有 所 提高 。 


43.1 Apriori 算法 

Apriori 算法 多 次 扫描 交易 记录 集 , 目 的 是 产生 长 度 不 同 的 频繁 集 。 首 先 产生 1- 频 繁 
集 Li ,在 此 基础 上 经 过 连接 、 修 剪 产生 2- 频 繁 集 L, .直到 无 法 产生 新 的 频繁 集 则 算法 终止 。 
这 里 在 第 次 循环 中 ,也 就 是 在 产生 -频繁 集 L， 的 过 程 中 ,首先 产生 -候选 频繁 集 的 集合 


Ci, 简 称 候选 集 。C 中 的 每 一 个 项 集 是 对 两 个 只 有 一 个 项 不 同 的 属于 工 忆 ;的 频繁 集 连 接 产 
生 。C 进行 修剪 ,产生 对 应 的 L;。 算 法 说 明和 过 程 如 图 4.1 所 示 。 
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输入 : 交易 数据 库 刀 , 最 小 支持 度 阔 值 supws 。 

输出 : 可 以 产生 规则 的 所 有 频繁 集 L; 。 

Ci : 人 -候选 频繁 集 。 

L : 人 -频繁 集 。 

(1) Li 一 find_frequent_l_itemset(D); // 发 现 1- 频 繁 集 

(2) for(k=2;L 1 AG k++){ 

(3) CC: =apriori_gen(Ly_ 1 ,supra); // 根 据 k 一 1- 频 繁 集 产生 k- 候 选集 
(4) for each tED1{ // 扫 描记 录 集 ,以 确定 每 个 候选 集 的 支持 度 
(5) Ct= subset(Ck,t); // 获 得 上 所 包含 的 候选 集 

(6) for each cEC, c.countt+; 

(7) } 

(8) Is 一 {cE Celc. count>supm)} 


(9) return L= UkL; 


图 4.1 Apriori 算法 


图 4. 1 中 第 (3) 步 apriori_gen(Lx-1,supmin ) 的 流程 如 图 4.2 所 示 。 


输入 : 上 一 次 循环 扫描 的 结果 L_, ,最 小 支持 度 阔 值 supw, 。 

输出 : 候选 频繁 集 Ce 。 

(3.1) for each IELe 

(3.2) foreach 12EL 

(3.3)  i 帮 (H1[I]=12[1])A…A(II[k 一 2] 一 12[k 一 2]) A(l1[k 一 巧 <12[k 一 1])){ 


(3.4) c= LDL; // 将 只 差 一 项 的 两 个 项 集 连 接 到 一 起 
(3.5) if has_infrequent_subset(c,L._1) 

(3.6) delete c; // 删 去 不 可 产生 频繁 项 集 的 候选 
(3.9) else Ce 一 CeUfc 

(3.8) } 


(3.9) return Cis 


图 4.2 apriori_gen(Le_i ,supwn) 算 法 


图 4. 2 中 第 (3. 5) 步 has_infrequent_subset(Cc,Lei) 的 流程 如 图 4. 3 所 示 。 


输入 : 本 次 扫描 产生 的 C 的 每 个 子 集 <, 上 次 扫描 产生 的 LL,-, 。 
输出 : c 是 否 将 被 从 C 中 删除 。 
(3.5.1) for each (k 一 1) 一 subset s of c 
// 根 据 算法 性 质 : 候选 集 的 子 集 一 定 是 频繁 的 
(3.5.2) if s¢ Li return TRUE; // 删 除 掉 子 集 是 不 频繁 的 候选 集 
else return FALSE; 


4.3 has_infrequent_subset(c,Lx_1) 算 法 


例如 ,对 于 表 4. 1 所 示 的 交易 记录 集 , 设 定 supws 一 3/10。 利 用 Apriori 算法 产生 频繁 
集 过 程 如 下 。 
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(1) 由 I 二 {bread,beer,cake,cream,milk,tea} 的 所 有 项 目 直 接 产 生 1- 候 选集 Ci ,计算 
其 支持 度 。 去 除 支持 度 小 于 supum 的 项 集 ,形成 1- 频 繁 集 Li ,如 表 4.2 所 示 。 


表 4.2 1- 候 选集 C, 和 1- 频繁 集 工 ， 


项 集 CC 支持 度 项 集 工 ， 支持 度 
{bread)} 7/10 {bread)} 7/10 
{beer} 1/10 {cream)} 3/10 
{cake} 2/10 {milk} 8/10 
{cream) 3/10 {tea} 7/10 
{milk} 8/10 

{tea} 7/10 


(2) 为 发 现 频繁 2- 项 集 L: ,首先 利用 Li 中 的 各 项 目 组 合 连接 ,来 产生 2- 候 选集 C: ; 然 
后 扫描 记录 集 , 以 获得 Cs 中 各 项 集 的 支持 度 。 去 除 支持 度 小 于 supmm 的 项 集 ,形成 2- 频 繁 
集 L: ,如 表 4. 3 所 示 。 


表 4.3 2- 候 选集 C, 和 2- 频繁 集 工 ， 


项 集 C; 支持 度 项 集 Ls 支持 度 
{bread, cream) 3/10 {bread, cream)} 3/10 
{bread, milk) 5/10 {bread, milk} 5/10 
{bread, tea} 5/10 {bread ,tea} 5/10 
{cream, milk} 3/10 {cream, milk} 3/10 
{cream, tea} 2/10 {milk, tea} 5/10 
{milk, tea) 5/10 


(3) 为 发 现 频繁 3- 项 集 Ls ,首先 利用 工 * 中 的 各 项 目 组 合 连接 ,来 产生 3- 候 选集 Cs。 连 
接 时 只 能 将 只 差 最 后 一 个 项 目 不 同 的 项 集 进 行 连接 。 例 如 ,L* 中 的 {bread, cream } 与 
{bread,milk} 只 有 最 后 一 个 项 目 不 同 ,可 以 连接 ,连接 结果 为 {bread,cream,milk}。 显 然 ， 
L, 中 的 {bread,cream} 与 {milk ,tea} 无 法 进行 连接 。 

连接 后 ,还 要 根据 Apriori 的 性 质 ,. 即 频繁 集 的 子 集 一 定 是 频繁 的 ,来 修剪 {bread， 
creamymilk}。 即 依次 判断 {bread,cream,milk} 的 3 个 子 集 {bread,cream), (bread,milk} 和 
{creamymilk} 是 否 都 出 现在 工 , 中 ,如 果 是 , 则 在 C; 中 保留 {bread,cream,milk}。 

又 如 ,Ls 中 的 {bread,cream} 与 {bread,tea) 只 有 最 后 一 个 项 目 不 同 ,也 可 以 连接 ,连接 
结果 为 {bread,cream,tea}。 但 由 于 {cream,tea} 没 有 出 现在 工 中 , 则 从 Cs 中 删除 {bread， 
cream, tea} 。 

最 后 扫描 记录 和 集 , 以 获得 Cs 中 各 项 集 的 支持 度 。 去 除 支持 度 小 于 supmm 的 项 集 , 形 成 
3- 频 繁 集 L, ,如 表 4.4 所 示 。 


表 4.4 3- 候 选集 C, 和 3- 频 繁 集 二 
项 集 Cs 支持 度 项 集 Ls 支持 度 


{bread ,cream., milk} 3/10 {bread.cream.milk} 3/10 
{bread, milk, tea} 3/10 {bread .milk, tea} 3/10 
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(4) 为 发 现 频繁 4- 项 集 L, ,重复 上 述 步 骤 , 则 Cs 为 空 ,所 有 频繁 集 都 被 找到 ,算法 到 此 
结束 。 
此 后 ,用 户 可 以 根据 需要 设 定 规则 的 最 小 可 信和 度 confwi ,利用 Apriori 算法 产生 的 频繁 
集 L， 和 Ls: ,产生 强 关联 规则 。 这 里 要 注意 的 是 ,根据 不 同 需要 ,用 户 可 以 只 关心 由 最 长 的 
频繁 集 即 工 ; 产生 的 规则 ,或 者 可 以 挖掘 出 所 有 由 工 ; 和 L; 产生 的 规则 。 请 读者 自行 根据 定 
义 4.7 找到 所 有 的 关联 规则 ,并 根据 定义 4. 9 挖掘 出 强 规则 。 


432 FP-growth 算法 


Han 等 人 提出 了 频繁 模式 增长 FP-growth 算法 ,把 记录 集 D 中 的 信息 压缩 到 一 个 树 结 
构 当 中 ,在 寻找 频繁 集 的 过 程 中 可 以 不 产生 候选 集 , 大 大 提高 了 运算 效率 。 

【定义 4.10】 FP-tree。 

频繁 模式 树 FP-tree 是 一 个 树 形 结构 。 包 括 一 个 频繁 项 组 成 的 头 表 , 一 个 标记 为 null 
的 根 结 点 , 它 的 子 结 点 为 一 个 项 前 级 子 树 的 集合 。 

【定义 4.11】 频繁 项 。 

单个 项 目的 支持 度 超过 最 小 支持 度 则 称 其 为 频繁 项 (frequent item) 。 

【定义 4.12】 频繁 项 头 表 。 

频繁 项 头 表 (head table) 的 每 个 表 项 由 两 个 域 组 成 : 项 目 名 称 item-name 和 指针 node_ 
link。node_link 指向 FP-tree 中 具有 与 该 表 项 相同 item-name 的 第 一 个 结 点 。 

【定义 4.13】 项 前 级 子 树 。 

每 个 项 前 级 子 树 (item prefix subtree) 的 结 点 有 3 个 域 : item-name、count 和 node_ 
link。item-name 记录 了 该 结 点 所 代表 的 项 的 名 字 。count 记录 了 所 在 路 径 代表 的 交易 中 包 
含 此 结 点 项 目的 交易 个 数 。node_link 指向 下 一 个 具有 同样 item-name 域 的 结 点 ,要 是 没有 
这 样 一 个 结 点 ,就 为 null。 

FP-growth 算法 分 为 两 大 部 分 ,描述 如 下 。 

(1) 第 一 部 分 : 根据 一 个 输入 交易 记录 集 建立 一 棵 FP-tree, 其 操作 步骤 如 图 4.4 所 示 。 


输入 : 交易 记录 集 DD, 最 小 支持 度 supw 。 
输出 : FP-tree。 
@ 扫描 数据 库 DD 一遍 ,得 到 频繁 项 的 集合 下 和 每 个 频繁 项 的 支持 度 。 把 下 按 支持 度 递 降 排序 ， 
结果 记 为 工 。 
@ 创建 FP-tree 的 根 结 点 , 记 为 ,并 且 标 记 为 null。 然 后 对 DB 中 的 每 个 交易 做 如 下 操作 。 
根据 工 中 的 顺序 , 选 出 并 排序 Trans 中 的 频繁 项 。 把 Trans 中 排 好 序 的 频繁 项 列表 记 为 
[p1P], 其 中 是 第 一 个 元 素 ,P 是 列表 的 剩余 部 分 。 调 用 insert_tree([p|P] ,T) 。 
函数 insert_tree([p|P] ,T) 的 运行 如 下 。 
如 果 工 有 一 个 子 结 点 N ,其 中 N. item-name 一 p. item-name, 则 将 N 的 count 域 值 加 1, 否 
则 ,创建 一 个 新 结 点 N ,使 它 的 count 为 1, 使 它 的 父 结 点 为 工 ,并 且 使 它 的 node_link 和 那些 具有 
相同 item_name 的 域 串 起 来 。 如 果 已 非 空 , 则 递归 调用 insert_tree(P,N) 。 


图 4.4 FP-growth 算法 


例如 ,对 于 表 4. 1 所 示 的 交易 记录 和 集 .假定 supwin 一 3/10, 为 了 方便 表示 ,由 于 有 10 条 
记录 ,在 筛选 时 按照 count 宇 3 的 方法 表示 满足 最 小 支持 度 supum , 则 FP-tree 的 建立 过 程 
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如 下 。 


Q@ 首先 扫描 一 遍 D, 计 算 每 个 项 目的 计数 值 并 保存 在 频繁 项 的 集合 下 中 , 选 出 下 中 支 
持 度 大 于 3 的 项 ,并 按 计数 递 降 排 列 , 将 结果 放 入 列表 工 中 ,如 表 4. 5 所 示 。 


表 4.5 列表 L 
项 目 计数 项 目 计数 
milk 8 tea 7 
bread 7 cream 3 


可 将 工 表示 成 集合 形式 , 即 工 二 {Cmilk:8),(bread:7),(tea:7),(cream:3)}。 为 了 便于 


表示 ,将 表 4.1 所 示 D 中 每 笔 交 易 的 项 目 按照 L 中 的 顺序 表示 出 来 ,如 表 4.6 所 示 。 
表 4.6 超市 交易 记录 集 也 
交易 号 TID 顾客 购买 商品 Items 交易 号 TID 顾客 购买 商品 Items 
| milk bread tea cream T6 bread tea 
T2 milk bread cream 77 milk tea 
T3 milk T8 bread tea 
T4 milk tea T9 milk bread tea cream 
T5 milk bread T10 milk bread tea 


@ 创建 一 个 标记 为 null 的 根 结 点 。 开 始 对 D 的 第 二 遍 扫 描 。 对 第 一 个 交易 T1 的 扫 
描 将 建立 这 棵 树 的 第 一 个 路 径 ; 二 milk:1.bread:l,tea:l,cream:1 二 。 对 于 T2 来 说 , 它 同 
已 经 存在 的 路 径 二 milk :1.bread:l,tea:l,cream:1 二 有 共同 的 前 缀 二 milk,bread 二 ,所 以 把 
这 个 前 缀 中 的 所 有 结 点 的 count 增加 1。 然 后 新 结 点 (cream:1) 被 创建 并 且 被 作为 结 点 
(bread:2) 的 子 结 点 。 对 T3 ,因为 它 的 频繁 项 列表 只 同 以 milk 为 前 级 的 子 树 有 一 个 共同 结 
点 (milk) ,所 以 把 这 个 结 点 的 count 增加 1。 依 此 类 推 ,扫描 完整 个 数据 库 。 

为 了 方便 对 树 的 遍历 ,建立 一 个 频繁 项 头 表 , 头 表 表 项 的 node_link 指向 树 里 面具 有 相 
同 item_name 的 结 点 。 具 有 相同 item_name 的 结 点 通过 node_link 被 连接 在 一 起 。 如 图 4.5 
所 示 。 


图 4.5 头 表 和 FP-tree 


由 此 可 见 ,FP-tree 是 一 个 压缩 的 数据 结构 , 它 用 较 少 的 空间 存储 了 后 面 频繁 集 挖掘 所 
需要 的 全 部 信息 。 


98 | 
国 据 仓库 与 数据 挖 所 


(2) 利用 所 产生 的 FP-tree 产生 频繁 集 ,其 过 程 如 图 4.6 所 示 。 


输入 : FP-tree。 

输出 : 所 有 的 频繁 集 。 

FP-growth( Tree,a) 

{ 

让 ”Tree 只 有 一 条 路 径 P 

then 对 了 中 的 结 点 的 每 一 个 组 合 ( 记 为 请 做 (1) 

@ 产生 频繁 集 8BUu, 并 且 把 它 的 支持 度 指 定 为 8 中 结 点 的 最 小 支持 度 ,else 对 
Tree 的 头 表 从 表 尾 到 表 头 的 每 一 个 表 项 ( 记 为 a) 做 (2) 一 (5) 

@ 产生 频繁 集 Bp 二 aUa, 支 持 度 为 a 的 支持 度 

图 建立 关于 有 的 FP-tree 

图 证 关于 有 8 的 FP-tree! 一 他 

回 then 调用 FP-growth(CTree,B) 

} 


图 4.6 产生 频繁 集 算法 


例如 ,对 应 于 图 4. 5 中 已 经 得 到 的 FP-tree 和 相应 的 头 表 作为 第 二 部 分 的 输入 ,按照 从 
表 尾 到 表 头 的 顺序 考查 表 中 的 每 一 个 表 项 ,建立 每 个 表 项 的 模式 树 ,得 到 关于 每 个 表 项 的 频 
繁 集 。 

@ 建立 关于 图 4. 5 中 的 头 表 最 后 一 项 (cream:3) 的 FP-tree, 找 到 所 有 包含 项 目 cream 
的 频繁 集 。 

根据 算法 ,从 表 项 (cream:3) 出 发 , 先 可 以 得 
到 一 个 频繁 集 (cream:3)。 然 后 , 顺 着 cream 表 项 
的 node_link 域 ,找到 所 有 包含 cream 的 路 径 
< 一 milk:8,bread:5,tea:3,cream:2 二 和 一 milk:8， 
bread:5,cream:1 之 。 根 据 cream 的 计数 ,将 上 述 
路 径 简 化 为 关于 cream 的 如 下 信息 : 二 milk， 
bread,tea:2 这 和 二 milk, bread: 1 记 。 然 后 利用 
FP-tree 的 建立 方法 建立 一 个 新 的 关于 cream 的 图 4.7 关于 cream 的 FP-tree 
FP-tree, 如 图 4.7 所 示 。 

由 此 搜索 路 径 , 可 以 产生 包含 项 目 cream 的 所 有 频繁 集 Lc ,如 表 4.7 所 示 。 


表 4.7 包含 项 目 cream 的 所 有 频繁 集 Le 


频繁 集 Leem 计 数 
{cream, bread) 3 
{cream, milk} 3 
{cream, bread ,milk} 3 


@ 依次 建立 关于 图 4. 5 中 的 头 表 项 目 (tea:7),(bread:7) 以 及 (milk:8) 的 FP-tree, 找 
到 所 有 包含 项 目 tea 的 频繁 集 {tea,bread:5).,{tea,milk:5),(tea,bread,milk:3); 包含 项 目 
bread 的 频繁 集 {bread,milk:5)。 
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所 有 项 目 求解 完 后 ,算法 结束 。 可 以 对 比 一 下 ,由 Apriori 算法 和 FP-growth 算法 得 到 
频繁 集 相同 ,但 Apriori 算法 扫描 DD 次 数 远 远 超过 FP-growth, 所 以 FP-growth 效率 更 高 。 


4.4 ”相关 研究 与 应 用 


关联 规则 不 仅 可 以 应 用 于 交易 记录 和 集 项 目 之 间 关 联 关系 的 发 现 ,还 可 以 用 于 关系 数据 
库 .数据 仓库 或 者 文本 中 的 数据 挖掘 。 对 于 不 同 数据 源 和 挖掘 深度 ,关联 规则 分 为 不 同 的 种 
类 。 现 在 的 应 用 研究 集中 在 提出 各 类 不 同 的 规则 挖掘 算法 ,提高 已 有 算法 的 效率 以 及 将 算 
法 用 于 新 的 领域 。 

在 SQL Server 2005 中 ,用 户 可 以 创建 数据 源 ,利用 Analysis Services 提供 的 挖掘 结构 
进行 关联 规则 的 挖掘 。 


44.1 分 类 


关联 规则 可 以 按 不 同 角度 进行 分 类 。 

(1) 基于 规则 中 涉及 到 的 数据 的 维 数 ,关联 规则 可 以 分 为 单 维 的 和 多 维 的 。 

在 单 维 的 关联 规则 中 ,只 涉及 到 数据 的 一 个 维 , 如 用 户 购买 的 物品 ; 而 在 多 维 的 关联 规 
则 中 ,要 处 理 的 数据 将 会 涉及 多 个 维 。 也 就 是 说 , 单 维 关联 规则 是 处 理 单个 属性 中 的 一 些 关 
系 ; 多 维 关 联 规则 是 处 理 多 个 属性 之 间 的 某 些 关系 。 

例如 ,Ri : 面包 = 二 牛奶 规则 只 涉及 到 用 户 购买 的 物品 ; R: : 性 别 =“ 女 ”= 二 职业 = 
“教师 ”规则 就 涉及 到 两 个 字段 的 信息 ,是 两 维 的 关联 规则 。 

(2) 基于 规则 中 数据 的 抽象 层次 ,可 以 分 为 单 层 关联 规则 和 多 层 关联 规则 。 

在 单 层 的 关联 规则 中 ,所 有 的 变量 都 没有 考虑 到 现实 的 数据 是 具有 多 个 不 同 的 层次 的 ; 
而 在 多 层 的 关联 规则 中 ,对 数据 的 多 层 性 已 经 进行 了 充分 的 考虑 。 

例如 ,面包 一 盖 牛奶 是 一 个 单 层 关联 规则 ; 面包 二 二 光明 牌 牛奶 是 一 个 较 高 层次 和 细 
节 层 次 之 间 的 多 层 关联 规则 。 

(3) 基于 规则 中 处 理 的 变量 的 类 型 不 同 ,关联 规则 可 以 分 为 布尔 型 和 数值 型 。 

布尔 型 关联 规则 处 理 的 值 都 是 离散 的 ,而 数值 型 关联 规则 处 理 的 数据 可 以 是 连续 的 。 

例如 ,性 别 =“ 女 ”= 二 职业 =“ 教 师 ” 是 布尔 型 关联 规则 ; 工龄 一 “5” 一 二 平均 工资 一 
3 000 是 数值 型 关联 规则 。 

目前 的 研究 多 数 集中 在 对 各 类 关联 规则 处 理 的 算法 创新 上 。 


442 SQL Server 2005 中 的 关联 规则 应 用 


在 SQL Server 2005 中 ,可 以 利用 Analysis Services 进行 关联 规则 的 挖掘 。 下 面 以 系 
统 提供 的 Adventure Works DW 数据 库 为 例 . 说 明 如 何 发 现 关联 规则 。Adventure Works 
DW 数据 库 是 一 个 支持 SQL Server Analysis Services 的 关系 数据 库 。Adventure Works 
Cycle 公司 正在 重新 设计 其 网 站 的 功能 。 重 新 设计 的 目的 是 提高 产品 的 零售 量 。 由 于 该 公 
司 在 交易 数据 库 中 记录 了 每 个 销售 .因此 它们 可 以 使 用 Microsoft 关联 算法 来 标识 倾向 于 
集中 购买 的 产品 集 。 然 后 ,它们 可 以 根据 顾客 购物 篮 中 已 有 的 项 预测 顾客 可 能 感 兴趣 的 其 
他 项 。 
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Adventure Works DW 数据 库 关联 规则 发 现 的 详细 步骤 如 下 。 
1. 创建 Analysis Services 项 目 


打开 Business Intelligence Development Studio ,选择 “文件 ”一 “新 建 " 命 令 , 新 建 一 个 
Analysis Services 项 目 。 在 “名 称 ” 文 本 框 中 将 新 项 目 命 名 为 Adventure Works, 单 击 “ 确 
定 ” 按 钮 。 


2. 创建 数据 源 


在 右 侧 解决 方案 资源 管理 器 中 ,右键 单 击 “ 数 据 源 ” 项 ,从 弹出 的 快捷 菜单 中 选择 “新 建 
数据 源 " 命 令 。 系 统 将 打开 数据 源 向 导 。 单 击 “ 新 建 "按钮 ,向 Adventure Works 数据 库 添 
加 连接 。 系 统 将 打开 “连接 管理 器 ”对 话 框 ,如 图 4.8 所 示 。 


和 连接 管理 器 E xl 
提供 程序 E): 本 机 OLE DB\Microsoft OLE DB Provider for SQL Server -|] 


服务 器 四) : 
E WY 
一 营 录 到 服务 器 
人 使 用 Windows 身份 验证 蚀 ) 
个 他 用 SQL Server 身份 验证 四 ) 


用 户 各 J 
将 码 加) 


三 保 施 名 码 人 
-连接 到 一 个 数据 库 
人 选择 或 输入 一 个 数据 库 名 种 ) ; 


了 


个 附加 一 个 数据 库 文件 


[Ws | 

到 加 名) 

一 一 
测试 和 连接) 取消 dl, 


图 4.8 “连接 管理 器 ”对 话 框 


在 “连接 管理 器 "对 话 框 的 “提供 程序 ”下 拉 列 表 中 选择 “本 机 OLE DB\Microsoft OLE 
DB Provider for SQL Server” 选 项 ,在 “服务 器 名 ”下 拉 列 表 中 选择 承载 Adventure Works 
DW 的 服务 器 ,在 “选择 或 输入 一 个 数据 库 名 ”下 拉 列 表 中 选择 Adventure Works DW 选项 ， 
再 单 击 “ 确 定 ” 按 钮 。 

单 击 “ 下 一 步 " 按 钮 进入 “模拟 信息 ”页 ,选择 “默认 值 ”。 此 后 都 采取 默认 值 , 新 的 数据 源 
Adventure Works DW 将 显示 在 解决 方案 资源 管理 器 的 “数据 源 ” 文 件 夹 中 。 


3. 创建 数据 源 视图 


在 解决 方案 资源 管理 器 中 ,右键 单 击 “ 数 据 源 视图 ”, 从 弹出 的 快捷 菜单 中 选择 “新 建 数 
据 源 视图 命令。 系统 将 打开 数据 源 视图 向 导 。 在 “选择 数据 源 ” 页 的 “关系 数据 源 ” 下 ,默认 
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选中 在 上 一 步 中 创建 的 Adventure Works DW 数据 源 。 单 击 * 下 一 步 ?按钮 ,在 “选择 表 和 视 


图 ”页 上 选择 下 列 各 表 , 然 后 单 击 右 箭头 键 ,将 图 4. 9 所 示 的 这 些 表 包 括 在 新 数据 源 视图 中 ， 


单 击 “ 下 一 步 ?按钮 。 


蛋 煞 据 束 视图 髓 导 


选择 表 和 视图 
从 要 包 合 在 数据 源 视图 中 的 关系 数据 库 中 选择 对 象 。 


=/9lx| 


可 用 对 象 必 ) ; 


国 dbo. DinTine 

dbo. FactCurrencyRate 
国 dbo. FactFinance 

国 tb。. FactInterretSales 


到 
到 


国 tb。 FactResellerSales 
国 dbo FactSalesQuota 
国 dbo. ProspectiveBuyer 
abo. vllPrep 

国 dbo. vTargetllsil 


惠 
表 
表 
表 
囊 
国 dbo FactInternetsalesR..， 表 
表 
惠 
甫 
视 | 
国 dbo. vlineSeries 视 


EB) dbo. vhssocSeqLineItens 
回 dbo. vhssocSeqOrders 


所 四 相关 表 久 ) 


视图 
视图 


《上 一 步 @) | 下- 步 人 D > 完成 四 > 取消 > 


图 4.9 创建 数据 源 视图 


在 “完成 向 导 ” 页 上 ,默认 情况 下 ,系统 将 数据 源 视图 命名 为 Adventure Works DW。 单 
击 “ 完 成 按钮。 系统 将 打开 数据 源 视图 设计 器 ,显示 Adventure Works DW 数据 源 视图 。 


在 数据 源 视图 设计 器 的 数据 源 视图 窗 格 中 ,选择 
vAssocSeqLineltems 表 的 OrderNumber 列 。 将 该 列 拖 到 
vAssocSeqOrders 表 中 ,并 将 其 放 到 OrderNumber 列 上 。 
vAssocSeqOrders 和 vAssocSeqLineItems 表 之 间 便 存在 
新 的 多 对 一 关系 ,如 图 4. 10 所 示 。 


4. 创建 关联 挖掘 结构 


在 解决 方案 资源 管理 器 中 ,右键 单 击 * 挖 掘 结构 ”, 从 
弹出 的 快捷 菜单 中 选择 “新 建 挖掘 结构 ”命令 。 在 “选择 定 
义 方法 ”页 上 ,确保 已 选中 “从 现 有 关系 数据 库 或 数据 仓 
库 ? 选 项 ,再 单 击 * 下 一 步 "按钮 。 

在 “选择 数据 挖掘 技术 ”页 的 “您 要 使 用 何 种 数据 挖掘 
技术 ?” 列 表 框 中 选中 “Microsoft 关联 规则 ”选项 ,如 图 4. 11 
所 示 , 青 单 击 “ 下 一 步 ”按钮 。 


回 vhssocSeqLineltems... 


PY orderNumber 


? LineNumber 
Model 


加 vhssocSeqOrders (d... 
他 OrderNumber 
CustomerKey 
Region 
IncomeGroup 


图 4.10 建立 关系 


“选择 数据 源 视图 ”页 随即 显示 。 默 认 情 况 下 ,“ 可 用 数据 源 视图 ”下 的 Adventure 


Works DW 为 选中 状态 。 
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丁丁 站 | 
选择 数据 挖掘 技术 
选择 对 于 您 下 执行 的 分 析 类 型 采 说 是 适用 的 数据 控 气 技术 。 


‘Es® |[ 下 步 四 》 | #8” 取消 
4 
图 4.11 选择 Microsoft 关联 规则 作为 挖掘 技术 


单 击 “ 下 一 步 ” 按 钮 ,在 “指定 表 类 型 "页 上 选中 vAssocSeqOrders 表 右 边 的 “事例 ” 复 选 
框 ,选中 vAssocSeqLineItems 表 右 边 的 “ 舱 套 ” 复 选 框 , 如 图 4.12 所 示 。 关 联 模型 必须 包含 
一 个 键 列 、 多 个 输入 列 以 及 一 个 可 预测 列 。 输 入 列 必须 为 离散 列 。 关 联 模 型 的 输入 数据 通 
常 包 含 在 两 个 表 中 。 例 如 ,一 个 表 可 能 包含 顾客 信息 ,而 另 一 个 表 可 能 包含 顾客 购物 情况 。 
可 以 使 用 嵌 套 表 将 该 数据 输入 到 模型 中 。 


人 数据 挖 拢 向 导 =~I9Ixl 
指定 表 类 型 
指定 分 析 时 要 使 用 的 表 类 型 。 
A 


国 vhssocSeqLineItens 问 
入 vhssocSeqDrders 本 口 


< 上 - 步 @ |LF*swm | 区 林苑 悦 取消 
4 


图 4.12 事例 表 和 嵌 套 表 
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和 LineNumber 右边 的 “ 键 ” 入 ” 复 选 框 。 选 中 Model 列 右边 的 “ 键 ”" 和 “可 预测 ”" 复 选 


单 击 “ 下 一 步 ” 按 钮 ,在 “指定 定型 数据 ”页 上 依次 清除 CustomerKey 右边 的 “ 键 " 复 选 框 
和 * 
框 。 然 后 ,系统 也 将 自动 选中 * 输 入 ” 复 选 框 ,如 图 4. 13 所 示 。 


a 
a 
[a 
挖 据 模型 结构 GE) 
日 者 whssocSeq0rders 
CustonerKey 口 局 5 
IneomeGroup 请 口 口 
半 orderfomber 多 [mu 日 
Region 三 口 口 
日 图 whssocSeqLineItens 
Linelfmber [me 口 
es zp 古 届 
为 当前 选 定 的 可 预测 内 容 提供 输入 建议 ; 
建议 中 | 
‘EB® | Fsw> | mw 了 
4 


图 4.13 指定 关联 分 析 中 所 用 的 属性 


单 击 “ 下 一 步 " 按 钮 ,在 “指定 列 的 内 容 和 数据 类 型 "页 上 单 击 " 下 一 步 ” 按 钮 。 在 “完成 向 
导 ” 页 的 “挖掘 结构 名 称 ” 中 输入 Association。 在 “挖掘 模 CE EE 
型 名 称 ” 中 输入 Association, 再 单 击 “ 完 成" 按钮。 系统 将 
打开 数据 挖掘 设计 器 ,显示 刚刚 创建 的 Association 挖掘 


结构 ,如 图 4. 14 所 示 。 Vt er 
[区 多 维 数据 集 
5. 设置 关联 规则 挖掘 的 参数 2 sy 


人 Association. dnn 
角色 


首先 打开 数据 挖掘 设计 器 的 “挖掘 模型 ”选项 卡 ,右键 
单 击 设计 器 网 格 中 的 “关联 ? 列 , 从 弹出 的 快捷 菜单 中 选择 
“设置 算法 参数 ”命令 ,如 图 4. 15 所 示 。 系 统 将 打开 “算法 图 4.14 Adventure Works DW 
参数 ”对 话 框 ,在 “算法 参数 ”对 话 框 的 “ 值 ” 列 中 设置 以 下 关联 规则 挖 气 结 构 视图 
参数 。 

MINIMUM SUPPORT = 0.01 

MINIMUM PROBABILITY = 0.1 

然后 单 击 “ 确 定 ” 按 钮 。 

MINIMUM_SUPPORT 指定 在 该 算法 生成 规则 之 前 必须 包含 项 集 的 事例 的 最 小 数 
目 。 将 该 值 设置 为 小 于 1, 将 指定 最 小 事例 数 作 为 事例 总 计 的 百分比 ; 将 该 值 设置 为 大 于 1 
的 整数 ,将 指定 最 小 事例 数 作为 必需 包含 项 集 的 事例 的 绝对 数 。 默 认 值 为 0. 03。 
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图 4.15 设置 关联 规则 算法 参数 
MINIMUM_PROBABILITY 指定 规则 为 True 的 最 小 概率 。 例 如 ,将 该 值 设置 为 0.5 
将 指定 不 生成 概率 小 于 50% 的 规则 。 默 认 值 为 0. 4。 
6. 建立 关联 规则 挖掘 模型 


由 于 已 经 定义 了 "关联 ?挖掘 模型 的 结构 和 参数 ,可 以 对 该 模型 进行 处 理 。 选 择 “ 挖 掘 模 
型 ?菜单 的 “处 理 挖掘 结构 和 所 有 模型 选项 ,系统 将 打开 “处理 挖 气 结 构 -Association ”对 话 
框 ,如 图 4. 16 所 示 。 单 击 * 运 行 ?按钮 ,系统 将 打开 * 处 理 进度 "对 话 框 ,以 显示 有 关 模 型 处 理 
的 信息 。 模 型 处 理 可 能 需要 一 些 时 间 。 


处 理 按 气 结构 - Association 


i 


图 4.16 处 理 挖掘 结构 


7. 查看 挖掘 结果 
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处 理 完成 之 后 ,选择 “挖掘 模型 查看 器 ”, 第 一 个 页 面 是 挖掘 到 的 频繁 集 ,如 图 4. 17 所 
示 。 或 者 打开 第 二 个 页 面 ,查看 挖掘 出 来 的 规则 ,如 图 4. 18 所 示 。 


项 集 | 规则 | 人 过 关系 网 络 | 


最 低 支持 ; 213 
最 小 项 集 大 小 ; D 
厂 显示 长 名 称 


习 先生 项 琳 : < 
习 有 显示 尿 性 名 称 和 值 
最 大 行 数 : zo0 当 


Water Bottis = 现 有 的 


1 

1 
3010 1 Patch kit = 现 有 的 
2908 1 Mountain Tire Tube = 现 有 的 
2477 1 Mountain-200 = 现 有 的 
2216 1 Road Tire Tube = 现 有 的 
2095 1 Cyding Cap = 现 有 的 
2014 1 Fender Set - Mountan = 现 有 的 
1941 1 Mountain Bottle Cage = 现 有 的 
1702 1 Road Bottie Cage = 现 有 的 


图 4.17 挖掘 项 集 的 结果 


4.5 小 结 


关联 规则 反映 一 个 事物 与 其 他 事物 之 间 的 相互 依存 性 和 关联 性 。 如 果 两 个 或 者 多 个 事 
物 之 间 存 在 一 定 的 关联 关系 ,那么 .其 中 一 个 事物 就 能 够 通过 其 他 事物 预测 到 。 典 型 的 关联 
规则 发 现 问 题 是 对 超市 中 的 购物 篮 数 据 进 行 分 析 , 通 过 发 现 顾客 放 入 购物 篮 中 的 不 同 商品 


之 间 的 关系 来 分 析 顾 客 的 购买 习惯 。 


关联 规则 挖掘 分 为 产生 频繁 集 和 产生 规则 两 个 步 又。 经典 的 关联 规则 挖掘 算法 包括 


_Road Bottle Cage = 现 有 的 , Cycing Cap = 现 有 的 -> Water 
Mountain-200 = 现 有 的 , Mountain Tire Tube = 现 有 的 -> HL 
Mountain-200 = 现 有 的 , Water Bottle = 现 有 的 -> Mountain， 


项 集 ”规则 | 依 加 关系 网 络 | 上 

最 小 根 率 : [oo 3 Wm [| 到 
最 低 重 要 性 : [-0.17 习 未 |[ 呈 未 原 性 名 称 i 位 ”可 
厂 显示 长 名 称 最 大 行 数 : Fo 当 


Touring-1000 = 现 有 的 , Water Bottle = 现 有 的 -> Road Bott,.。 


Road-750 = 现 有 的 , Water Bottle = 现 有 的 -> Road Bottle … 


ML Road Tire = 现 有 的 , 5port-100 = 现 有 的 -> Road Tire Tu 
Fender Set - Mountain = 现 有 的 , Water Botte = 现 有 的 -> 


ML Mountain Tire = 现 有 的 , 5port-100 = 现 有 的 -> Mountain,,， 


Mountain Bottle Cage = 现 有 的 , Cyding Cap = 现 有 的 -> W，… 
Touring-1000 = 现 有 的 , Road Bottle Cage = 现 有 的 -> Wat，… 


HL Mountain Tire = 现 有 的 , 5port-100 = 现 有 的 -> Mountain，… 


Road Bottle Cage = 现 有 的 -> Water Bottle = 现 有 的 


Road-750 = 现 有 的 , Road Botte Cage = 现 有 的 -> Water B， 


Touring Tire = 现 有 的 -> Touring Tire Tube = 现 有 的 
Mountain Bottle Cage = 现 有 的 , 5port-100 = 现 有 的 -> Wat..… 


挖掘 关联 规则 的 结果 
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候选 集 产生 频繁 集 的 算法 Apriori 和 不 产生 候选 集 的 算法 FP-growth。 关 联 规则 可 以 分 为 
一 维和 多 维 关联 规则 、 单 层 和 多 层 关 联 规则 ,以 及 布尔 型 和 数值 型 的 关联 规则 。 

在 SQL Server 中 ,可 以 使 用 Analysis Services 服务 进行 关联 规则 模型 的 建立 和 处 理 ， 
以 可 视 化 的 方式 查看 模型 结果 。 


4.6 习题 
1. 关联 规则 的 经 典 算法 包括 和 ,其 中 的 效率 更 高 。 
2. 如 果 工 ,= 二 {{a,b},{a,c},{a,d},{b,c},{b,d})}, 则 
连接 产生 的 Cs 一 。 
再 经 过 修剪 ,C: 一 
3. 设 定 supmin 二 50% ,交易 集 如 表 4. 8 所 示 。 
则 工 ; 一 
L:= 
表 4.8 交易 记录 集 D 
交易 号 TID 顾客 购买 商品 Ttems 
Tl ABC 
T2 AC 
T3 AD 
T4 BEF 


4. 什么 是 关联 规则 ?关联 规则 的 应 用 有 哪些 ? 

5. 关联 规则 的 分 类 有 哪些 ? 关联 规则 挖掘 的 步骤 包括 什么 ? 

6. 设 定 supwa 一 50% ,confu 一 50% ,使 用 Apriori 算法 完成 表 4. 8 所 示 的 数据 集 关 联 
规则 的 挖掘 。 

7. 设 定 supmin 二 50% .conf 一 50% ,使 用 FP-tree 算法 完成 表 4. 9 所 示 的 数据 集 关联 
规则 的 挖掘 。 


表 4.9 交易 记录 集 D 


交易 号 TID 顾客 购买 商品 Items 
Tt favcvdyg,ivmyp 
T2 avb,csf.lvmvo 
六 b,f,h,j,o 
T4 b,c,k,s,p 


T5 afvcveyl,pymyn 
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随 着 计算 机 和 信息 时 代 的 到 来 ,人 类 收集 ,存储 和 访问 数据 的 能 力 大 大 
增强 ,快速 增长 的 海量 数据 集 被 存储 在 大 型 数据 库 中 ,随时 充斥 着 我 们 的 计 
算 机 、 网 络 和 生活 ,理解 如 此 丰富 的 数据 已 经 远 远 超出 人 类 的 能 力 , 原 有 的 数 
据 分 析 工 具 也 显得 力不从心 。 为 了 不 被 数据 淹没 ,而 是 从 中 及 时 发 现 有 价值 
的 信息 ,从 而 制定 正确 的 决策 ,数据 挖掘 技术 应 运 而 生 , 并 且 显示 出 强大 的 生 
命 力 。 数 据 挖掘 的 方法 多 种 多 样 ,包括 关联 规则 挖掘 .分 类 、 聚 类 和 统计 分 析 
等 ,其 中 分 类 问题 是 数据 挖掘 领域 中 研究 和 应 用 最 为 广泛 的 技术 之 一 ,如 何 
更 精确 .更 有 效 地 分 类 一 直 是 人 们 追求 的 目标 。 


5.1 3 引 例 


分 类 是 指 把 数据 样本 映射 到 一 个 事先 定义 的 类 中 的 学 习 过 程 , 即 给 定 一 
组 输入 的 属性 向 量 及 其 对 应 的 类 ,用 基于 归纳 的 学 习 算 法 得 出 分 类 。 

分 类 问题 是 数据 挖掘 领域 中 研究 和 应 用 最 为 广泛 的 技术 之 一 ,许多 分 类 
算法 被 包含 在 统计 分 析 工 具 的 软件 包 中 ,作为 专门 的 分 类 工具 来 使 用 。 分 类 
问题 在 商业 、 银 行业 、 医 疗 诊断 `. 生 物 学 .文本 挖掘 和 因特网 筛选 等 领域 都 有 
广泛 应 用 。 例 如 ,在 银行 业 中 ,分 类 方法 可 以 辅助 工作 人 员 将 正常 信用 卡 用 
户 和 欺诈 信用 卡 用 户 进行 分 类 ,从 而 采取 有 效 措施 减 小 银行 的 损失 ; 在 医疗 
诊断 中 ,分 类 方法 可 以 帮助 医疗 人 员 将 正常 细胞 和 癌变 细胞 进行 分 类 ,从 而 
及 时 制定 救治 方案 ,挽救 病人 的 生命 ; 在 因特网 筛选 中 ,分 类 方法 可 以 协助 网 
络 工作 人 员 将 正常 邮件 和 垃圾 邮件 进行 分 类 ,从 而 制定 有 效 的 垃圾 邮件 过 滤 
机 制 , 防 止 垃圾 邮件 干扰 人 们 的 正常 生活 。 

分 类 问题 中 使 用 的 数据 集 是 用 什么 形式 来 表示 的 呢 ? 如 表 5. 1 所 示 , 数 
据 集 通 过 描述 属性 和 类 别 属性 来 表示 。 其 中 ,第 一 行 中 的 Age, Salary 称 为 
数据 样本 的 描述 属性 ,Class 称 为 数据 样本 的 类 别 属性 。 从 第 二 行 开 始 的 内 
容 分 别 对 应 描述 属性 和 类 别 属性 的 具体 取 值 。 
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表 5.1 分 类 问题 的 示例 数据 集 

Age Salary Class 
30 high cl 
25 high cz 
21 low C2 
43 high Cl 
18 low cz 


33 low cl 


在 分 类 问题 中 ,描述 属性 可 以 是 连续 型 属性 (continuous attribute) ,也 可 以 是 离散 型 属 
性 (discrete attribute); 而 类 别 属性 必须 是 离散 型 属性 。 所 谓 连 续 型 属性 ,是 指 在 某 一 个 区 
间或 者 无 穷 区 间 内 该 属性 的 取 值 是 连续 的 , 表 5. 1 中 的 属性 Age 就 是 连续 型 属性 ; 离散 型 
属性 是 指 该 属性 的 取 值 是 不 连续 的 , 表 5. 1 中 的 属性 Salary 和 Class 是 离散 型 属性 。Salary 
的 具体 取 值 是 high 和 low ,表示 工 资 的 高 和 低 ,Class 的 具体 取 值 是 c 和 co ,表示 该 数据 集 
分 为 两 个 类 别 。 在 具体 的 应 用 中 ,针对 不 同 的 算法 ,有 时 需要 将 连续 属性 转化 为 离散 属性 。 

通过 上 述 介 绍 ,可 以 将 分 类 问题 中 使 用 的 数据 集 表示 为 X 一 {(Czi,y)1i 一 1,2,…,total)， 
其 中 数据 样本 x;(i 二 1,2,…,total) 用 d 维特 征 向 量 x 二 (xa ,xw，… ,zy ) 来 表示 ,ra ,To，…， 
za 分 别 对 应 a 个 描述 属性 A ,A,,…,As 的 具体 取 值 ; y; 表示 数据 样本 x; 的 类 标号 。 假 设 
给 定数 据 集 包含 m 个 类 别 , 则 wE {cco,… ,cm) ,其 中 避 ,co，… ,cn 是 类 别 属性 C 的 具体 取 
值 ,也 称 为 类 标号 。 对 于 未 知 类 标号 的 数据 样本 zx, 用 qd 维特 征 向 量 x 二 (zi,xs，… ,za) 来 


5.2 分 类 问题 概述 


52.1 分 类 的 过 程 


用 于 分 类 的 数据 集 是 由 一 条 条 的 记录 组 成 的 ,例如 表 5. 1 中 的 第 一 条 记录 30,high,c 
是 一 个 训练 样本 ,其 中 30,high 是 描述 属性 Age 和 Salary 的 


具体 取 值 ,类 标号 < 是 类 别 属性 Class 的 具体 取 值 。 对 于 包 EE 

含 类 别 属性 的 数据 集 , 可 以 用 于 分 类 器 的 设计 ,之 后 用 分 类 器 1 

对 未 知 类 标号 的 数据 样本 进行 分 类 。 预 处 理 
分 类 的 过 程 如 图 5. 1 所 示 。 下 面 对 图 5. 1 中 的 几 个 部 分 


做 简要 说 明 。 | | 
1 分 类 器 设计 | 一 一 | 分 类 决策 | 


图 5.1 分 类 的 过 程 


分 类 问题 所 需要 的 数据 可 以 是 图 像 ,例如 文字 、 指 纹 以 及 
其 他 需要 分 类 的 物体 的 照片 等 。 可 以 是 波形 ,例如 脑 电 图 、 心 电 图 和 机 械 震动 波 等 。 也 可 以 
是 各 种 物理 和 逻辑 数据 。 所 谓 物 理 数据 ,是 指数 据 中 既 包含 数值 型 数据 ,也 包含 描述 型 数 
据 , 例 如 病人 的 病历 中 的 各 种 化 验 数据 .各 单位 人 事 部 门 的 档案 资料 .商业 部 门 的 产品 生产 
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和 销售 数据 等 ; 所 谓 逻 辑 数据 ,是 指 对 某 些 描述 型 的 数据 ,例如 对 性 别 的 判断 (男性 和 女性 ) 
或 者 病症 的 描述 (有 病 和 正常 ) ,逻辑 数据 可 以 用 逻辑 值 来 表示 ,如 0 代表 男性 ,1 代表 女性 。 
此 外 ,对 于 图 像 和 波形 ,为 了 方便 计算 机 的 处 理 , 可 以 通过 采样 或 者 量化 方法 将 它们 转化 为 
向 量 形式 的 逻辑 数据 。 


2. 预 处 理 


为 了 提高 分 类 的 准确 性 和 有 效 性 ,需要 对 分 类 所 用 的 数据 进行 预 处 理 。 对 数据 的 预 处 
理 通 常 包括 : 

(1) 去 除 噪声 数据 ,对 空缺 值 进行 处 理 。 

(2) 数据 集成 或 者 变换 。 某 些 应 用 领域 的 数据 集 包含 的 属性 个 数 很 多 ( 即 维 数 很 高 )， 
而 且 有 些 属 性 是 宛 余 的 。 如 果 直 接 使 用 这 些 数据 ,会 大 大 增加 分 类 器 设计 的 工作 量 , 因 此 ， 
需要 对 原始 数据 进行 集成 或 者 变换 ,将 维 数 较 高 的 样本 空间 转换 为 维 数 较 低 的 特征 空间 ,从 
而 得 到 最 能 反映 分 类 本 质 的 那些 特征 或 者 属性 。 

关于 数据 预 处 理 的 工作 ,请 参阅 相关 文献 ,这 里 就 不 再 袭 述 了 。 


3. 分 类 器 设计 


分 类 器 设计 阶段 包含 如 下 3 个 过 程 。 

(1) 划分 数据 集 。 给 定 带 有 类 标号 的 数据 集 , 并 且 将 数据 集 划 分 为 两 个 部 分 : 训练 集 
和 测试 集 。 通 常 使 用 两 种 方式 来 划分 数据 集 。 第 一 种 方式 是 从 数据 集中 随机 地 抽取 出 2/3 
的 数据 样本 作为 训练 集 ,其 余 1/3 的 数据 样本 作为 测试 集 ; 第 二 种 方式 是 采用 十 交叉 验证 
方法 (10-fold validation) ,具体 做 法 是 将 数据 集 随机 地 划分 为 10 组 ,之 后 执行 10 次 循环 ,在 
第 i 次 (二 i 二 10) 循环 中 ,将 第 i 组 数据 样本 作为 测试 集 ,其 余 的 9 组 数据 样本 作为 训练 集 。 

(2) 分 类 器 构造 。 利 用 训练 集 构造 分 类 器 (分 类 模型 )。 通 过 分 析 由 属性 描述 的 每 类 样 
本 的 数据 信息 ,从 中 总 结 出 分 类 的 规律 性 ,建立 判别 公式 或 者 判别 规则 。 在 分 类 器 构造 过 程 
中 ,由 于 提供 了 每 个 训练 样本 的 类 标号 ,这 一 步 也 称 作 有 指导 的 学 习 方法 (或 者 称 作 监 督学 
习 方 法 )。 

(3) 分 类 器 测试 。 利 用 测试 集 对 分 类 器 的 分 类 性 能 进行 评估 ,具体 方式 是 : 首先 ,利用 
分 类 器 对 测试 集中 的 每 一 个 数据 样本 进行 分 类 ; 其 次 ,将 分 类 得 到 的 类 标号 和 测试 集中 数 
据 样 本 的 原始 类 标号 进行 对 比 .从 而 得 到 分 类 器 的 分 类 性 能 。 需 要 特别 说 明 的 是 ,采用 十 交 
又 验证 方法 时 ,需要 等 到 循环 结束 之 后 再 对 分 类 性 能 进行 评估 。 


4. 分 类 决策 


如 果 在 分 类 器 设计 阶段 所 构造 的 分 类 器 的 分 类 性 能 被 认为 是 可 以 接受 的 ,就 可 以 利用 
该 分 类 器 对 未 知 类 标号 的 数据 样本 进行 实际 的 分 类 决策 。 
522 分 类 的 评价 准则 

给 定 测试 集 Xww 一 {Czxi,yi) 1i 一 1,2,…,N), 其 中 ,NN 表示 测试 集中 的 样本 个 数 ; zx; (1 三 


iN) 表 示 测 试 集中 的 数据 样本 ; y; (1 三 i 过 NN) 表 示 数 据 样本 x; 的 类 标号 ,假设 要 研究 的 分 
类 问题 含有 m 个 类 别 , 则 wE {a ,co，… ,cn}。 在 分 类 问题 中 ,对 于 测试 集 的 第 j(1 志 j 生 mm) 
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个 类 别 , 假 设 被 正确 分 类 的 样本 数量 为 TPi ,被 错误 分 类 的 样本 数量 为 FN; ,其 他 类 别 被 错 
误 分 类 为 该 类 的 样本 数据 量 为 FP;。 

在 分 类 问题 中 ,通常 使 用 评价 准则 来 评估 所 构造 分 类 器 的 分 类 性 能 。 通 过 上 一 段 给 出 
的 假设 ,下 面 介绍 几 种 分 类 问题 中 常用 的 评价 准则 。 


1. 精确 度 


精确 度 (accuracy) 是 分 类 问题 中 最 常用 的 评价 准则 , 它 的 值 代表 测试 集中 被 正确 分 类 
的 数据 样本 所 占 的 比例 。 精 确 度 反映 了 分 类 器 对 于 数据 集 的 整体 分 类 性 能 。 精 确 度 的 定义 
如 式 (5-1) 所 示 。 
Sp, 
Accuracy = 生生 (5-1) 
2. 查 全 率 和 查 准 率 


第 j 个 (1 二 j 生 mm) 类 别 的 查 全 率 (Recall;) 表 示 在 本 类 样本 中 ,被 正确 分 类 的 样本 所 占 
的 比例 ; 而 查 准 率 (Precision;) 表 示 被 分 类 为 该 类 的 样本 中 ,真正 属于 该 类 的 样本 所 占 的 比 
例 。 查 全 率 和 查 准 率 分 别 表示 某 个 单一 类 别 的 分 类 精度 和 纯度 ,它们 的 定义 如 式 (5-2) 和 
式 (5-3) 所 示 。 
TP 


Recall; = TP EN; lj<m (5-2) 
ye 3P : 
Precision; 一 TP, + FP; lj<m (5-3) 


3. F-measure 


F-measure 可 以 比较 合理 地 评价 分 类 器 对 每 一 类 样本 的 分 类 性 能 。 第 j 个 (1 二 j 志 mm) 
类 别 的 F-measure; 的 定义 如 式 (5-4) 所 示 ., 它 是 查 全 率 和 查 准 率 的 组 合 表达 式 , 其 中 6 是 可 
以 调节 的 ,通常 取 值 为 1。 
(1+pF) X Recall; X Precision; 
B* X Recall; + Precision; 


(5-4) 


F-measure; 


4. 几何 均值 


几何 均值 (G-mean) 也 是 一 种 非常 有 效 的 评价 准则 , 它 能 够 合理 地 评价 数据 集 的 整体 
分 类 性 能 。G-mean 是 各 个 类 别 的 查 全 率 的 乘积 的 平方 根 。 当 各 个 类 别 的 查 全 率 的 值 都 
大 时 ,G-mean 才 相 应 增 大 , 它 同 时 兼顾 了 各 个 类 别 的 分 类 精度 。G -mean 的 定义 如 


式 (5-5) 所 示 。 
G-mean = |T[Recaii (5-5) 
j=1 


在 上 述评 价 准 则 中 ,精确 度 是 分 类 问题 中 最 常用 的 评价 准则 。 需 要 说 明 的 是 ,对 于 各 个 
类 别 分 布 相 对 均衡 的 数据 集 , 精 确 度 是 比较 合理 的 评价 准则 。 但 是 , 当 各 个 类 别 分 布 不 均 
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衡 ,特别 是 所 关注 的 类 别 包含 的 样本 数量 比较 小 时 ,精确 度 不 能 正确 反映 每 个 具体 类 别 的 分 
类 性 能 。 在 这 种 情况 下 .使 用 查 全 率 、 查 准 率 、.F-measure 或 者 几何 均值 更 为 合理 。 因 此 ,在 
评价 分 类 器 的 分 类 性 能 时 ,要 根据 数据 集 的 特点 和 所 关注 的 侧重 点 的 不 同 ,选择 最 合适 的 评 
价 准则 。 


5.3 决策 树 


最 早 的 决策 树 算法 是 由 Hunt 等 人 于 1966 年 提出 的 CLS。 当 前 最 有 影响 的 决策 树 算 
法 是 Quinlan 于 1986 年 提出 的 ID3 和 1993 年 提出 的 C4. 5。ID3 只 能 处 理 离散 型 描述 属 
性 , 它 选择 信息 增益 最 大 的 属性 划分 训练 样本 ,其 目的 是 使 得 进行 分 枝 时 系统 的 焙 最 小 ,从 
而 提高 算法 的 运算 速度 和 精确 度 。ID3 算法 的 主要 缺陷 是 ,用 信息 增益 作为 选择 分 枝 属性 
的 标准 时 ,偏向 于 取 值 较 多 的 属性 ,而 在 某 些 情况 下 ,这 类 属性 可 能 不 会 提供 太 多 有 价值 的 
信息 。C4.5 是 ID3 的 改进 算法 ,不 仅 可 以 处 理 离散 型 描述 属性 ,还 能 处 理 连续 型 描述 属性 。 
C4.5 采用 了 信息 增益 比 作为 选择 分 枝 属 性 的 标准 ,弥补 了 ID3 的 不 足 。 

决策 树 分 类 方法 的 优点 如 下 。 

(1) 进行 分 类 器 设计 时 ,决策 树 分 类 方法 所 需 时 间 相 对 较 少 。 

(2) 决策 树 的 分 类 模型 是 树 状 结构 ,简单 直观 ,比较 符合 人 类 的 理解 方式 。 

(3) 可 以 将 决策 树 中 到 达 每 个 叶 结 点 的 路 径 转 换 为 IF-THEN 形式 的 分 类 规则 ,这 种 形 
式 更 有 利于 理解 。 


53.1 决策 树 的 基本 概念 


决策 树 学 习 方法 是 以 给 定数 据 样本 为 基础 的 归纳 学 习 方 法 。 在 给 定 已 知 类 标号 的 数据 
集 的 情况 下 ,决策 树 学 习 方 法 采用 自 顶 向 下 的 递归 方式 来 产生 一 个 类 似 于 流程 图 的 树 结构 。 
树 的 最 顶层 结 点 称 为 根 结 点 ; 最 底层 结 点 称 为 叶 结 点 ,每 个 叶 结 点 代表 样本 的 类 别 或 者 类 
分 布 ; 根 结 点 和 叶 结 点 之 间 的 结 点 称 为 内 部 结 点 。 决 策 树 学 习 方 法 在 根 结 点 和 各 内 部 结 点 
上 根据 给 定 的 度量 标准 来 选择 最 适合 的 描述 属性 作为 分 枝 属 性 ,并 且 根 据 该 属性 的 不 同 取 
值 向 下 建立 分 枝 。 对 未 知 类 标号 的 数据 样本 进行 分 类 时 ,从 根 结 点 开始 逐 层 向 下 判断 ,直到 
叶 结 点 ,这 样 就 可 以 得 到 该 数据 样本 的 类 标号 。 

下 面 通过 一 个 例子 来 形象 地 说 明 决 策 树 的 结构 。 表 5. 2 中 给 出 了 一 个 关于 是 否 购买 保 
险 的 数据 集 ,包含 4 个 描述 属性 。 其 中 ,描述 属性 A 的 名 称 为 “公司 职员 ”, 描 述 属性 A。 的 
名 称 为 “年 龄 ”, 描 述 属 性 As 的 名 称 为 “收入 ”, 描 述 属性 A 的 名 称 为 “信誉 度 ”。 此 外 ,数据 
集 的 类 别 属 性 C 的 名 称 为 “ 买 保险 "。 从 表 5. 2 中 可 以 看 出 ,本 例 中 的 描述 属性 和 类 别 属 性 
都 是 离散 型 属性 ,Ai( 公 司职 员 ) 和 A, (信誉 度 ) 包 括 两 种 取 值 .A, (年 龄 ) 和 As:( 收 入 ) 包 括 3 
种 取 值 ; 类 别 属性 C( 买 保险 ) 包 括 两 种 取 值 ,表示 该 数据 集 被 划分 为 两 个 类 别 , 其 中 ci 表示 
买 保险 ,cs 表示 不 买 保险 。 

将 表 5. 2 中 的 数据 集 作为 训练 集 时 ,会 得 到 怎样 的 一 棵 决策 树 呢 ?图 5. 2 展示 了 这 棵 
决策 树 的 结构 。 其 中 ,最 顶层 的 结 点 “年 龄 ” 称 为 根 结 点 ,此 外 ,还 有 两 个 内 部 结 点 :“ 公 司职 
员 ” 和 “信誉 度 ”。 图 5. 2 中 用 椭圆 边框 表示 的 结 点 称 为 叶 结 点 ,它们 的 值 是 类 别 属性 的 具体 
取 值 ,表示 类 标号 。 
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表 5.2 决策 树 举例 数据 集 
公司 职员 年 龄 收入 信誉 度 买 保险 
否 <40 高 良 cz 
否 <40 高 优 cz 
否 41 一 50 高 良 a 
否 >50 中 良 a 
是 >50 低 良 a 
是 >50 低 优 cz 
是 41 一 50 低 优 a 
否 <40 中 良 cz 
是 40 低 良 a 
是 >50 中 良 a 
是 <40 中 优 a 
否 41~50 中 优 a 
是 41~50 高 良 a 
否 >50 中 优 ce 
年 龄 
40741~50| >50 
公司 职员 | a 信誉 度 


之 如 必 总 


图 5.2 由 表 5.2 的 数据 集 生 成 的 决策 树 


此 外 ,可 以 将 决策 树 中 从 根 结 点 到 达 每 个 叶 结 点 的 路 径 转换 为 IF-THEN 形式 的 分 类 
规则 。 当 决策 树 很 大 时 ,IF-THEN 形式 的 分 类 规则 更 易于 理解 。 图 5. 2 所 示 的 决策 树 可 
以 转换 为 如 下 所 示 的 IF-THEN 分 类 规则 。 

(1) IF" 年 龄 过 40"AND" 是 公司 职员 " ,THEN" 买 保险 "。 

(2) IF" 年 龄 过 40"AND" 不 是 公司 职员 " .THEN "不 买 保险 "。 

(3) IF" 年 龄 介 于 41 一 50 之 间 " ,THEN" 买 保险 " 。 

(4) IF" 年 龄 二 50"AND" 信 誉 度 为 良 ",THEN" 买 保险 "。 

(5) IF" 年 龄 二 >50"AND" 信 誉 度 为 优 ",THEN" 不 买 保险 "。 


532 决策 树 算法 ID3 


决策 树 算法 ID3 只 能 处 理 离散 型 描述 属性 ,在 选择 根 结 点 和 各 个 内 部 结 点 上 的 分 枝 属 
性 时 ,采用 信息 增益 (information gain) 作 为 度量 标准 。 下 面 介 绍 ID3 算法 的 原理 。 

假设 给 定 的 数据 集 为 处 =={ (zi;,yi)1i 一 1,2,…,total) ,其 中 样本 x;(i 一 1,2,… ,total) 用 
d 维特 征 向 量 x; 二 (xa ,xi ，… ,xa ) 来 表示 ,za ,zz，… ,Xa 分 别 对 应 d 个 描述 属性 Al ,A,,…， 
As 的 具体 取 值 ; w (i 一 1,2,…,total) 表 示 样 本 zi 的 类 标号 ,假设 要 研究 的 分 类 问题 含有 
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个 类 别 , 则 wE {c cz,…:co}。 需 要 说 明 的 是 ,在 创建 根 结 点 时 ,数据 集 X 是 最 初 给 定 的 所 
有 数据 ,在 创建 内 部 结 点 时 ,数据 集 X 是 上 层 结 点 的 某 个 分 枝 对 应 的 数据 集 。 

假设 nj 是 数据 集 X 中 属于 类 别 c; 的 样本 数量 , 则 各 类 别 的 先 验 概 率 为 PCc) 一 nn/ 
total,j 二 1,2,…,m。 对 给 定数 据 集 X 分 类 所 需 的 期 望 信息 为 


Tn ns, nm) 一 一 >)P(c)log:(CP(c)) (5-6) 


Pm 


设 描述 属性 Aj(f 二 1,2,…,d) 具 有 4g 个 不 同 的 取 值 (ay,az@,…,aw) ,利用 描述 属性 
Ar 可 以 将 数据 集 X 划分 为 9 个 子 集 {Xi ,XX ,…,X,) ,其 中 X,(s 二 1,2,…,g) 中 的 样本 在 
Ar 上 具有 相同 的 取 值 cv 。 设 nn, 表示 子 集 X, 中 的 样本 数量 ,nj 表示 子 集 X, 中 属于 类 别 cj 
的 样本 数量 。 则 由 描述 属性 Ar 划分 数据 集 X 所 得 的 箭 为 


E(A/) = $n ne) (5-7) 


s=l 


其 中 
T(ms snm ) 一 一 Dpilogs (pis) (5-8) 
1 


其 中 ,pj 二 n/n, 表示 在 子 集 X, 中 类 别 为 cj 的 数据 样本 所 占 的 比例 。 式 (5-7) 中 的 炉 值 越 
小 ,表示 属性 对 数据 集 划 分 的 纯度 越 高 。 

根据 式 (5-6) 、 式 (5-7) 和 式 (5-8), 可 以 得 到 利用 描述 属性 ArCF 一 1.2,…,d) 划 分 数据 
集 时 的 信息 增益 ,如 式 (5-9) 所 示 。 

Gain(Ay) 一 Ta yz nm) — E(Ay) (5-9) 

选择 具有 最 高 信息 增益 的 描述 属性 作为 给 定数 据 集 X 的 分 枝 属性 ,从 而 创建 决策 树 中 
的 一 个 结 点 ,并且 根据 该 描述 属性 的 不 同 取 值 再 创建 分 枝 , 之 后 对 各 分 枝 中 的 样本 子 集 递归 
调用 上 述 方法 建立 该 结 点 的 各 个 子 结 点 。 当 某 个 分 枝 上 的 所 有 数据 样本 都 属于 同一 个 类 别 时 
划分 停止 ,形成 叶 结 点 ; 或 者 当 某 个 分 枝 上 的 样本 不 属于 同一 个 类 别 , 但 是 又 没有 剩余 的 描述 
属性 可 以 进一步 划分 数据 集 时 也 形成 叶 结 点 ,并 且 用 多 数 样 本 所 属 的 类 别 来 标记 这 个 叶 结 点 。 

基于 以 上 分 析 , 下 面 给 出 ID3 算法 的 操作 步骤 ,如 图 5. 3 所 示 。 


输入 : 给 定 训练 集 XX,s, ,其 中 每 一 个 训练 样本 都 是 由 一 组 描述 属性 的 具体 取 值 表示 的 特征 向 量 ， 

并 且 每 个 训练 样本 都 有 类 标号 ; 给 定 描述 属性 组 成 的 集合 ,作为 决策 树 中 根 结 点 和 各 内 部 结 点 上 

的 分 枝 属性 的 候选 集 。 

输出 : 决策 树 。 

(1) 如 果 训 练 集 Xs 中 的 样本 都 属于 同一 个 类 别 , 则 将 根 结 点 标记 为 叶 结 点 ,否则 进行 第 (2) 步 。 

(2) 如 果 描 述 属性 集 为 空 集 , 则 将 根 结 点 标记 为 叶 结 点 ,类 标号 为 Xe 中 包含 样本 数量 最 多 的 类 
标号 ,否则 进行 第 (3) 步 。 

(3) 根据 信息 增益 评价 标准 ,从 给 定 的 描述 属性 集中 选择 一 个 信息 增益 的 值 最 大 的 描述 属性 作为 
根 结 点 的 分 枝 属性 ,之 后 进行 第 (4) 步 。 

(4) 按照 根 结 点 中 分 枝 属 性 的 具体 取 值 从 根 结 点 进行 分 枝 ,假设 测试 属性 有 / 种 取 值 , 则 Xe。 被 划 
分 为 i 个 样本 子 集 ,每 个 具体 的 样本 于 集 对 应 一 个 分 枝 , 而 且 其 中 的 样本 具有 相同 的 属性 值 ， 
之 后 进行 第 (5) 步 。 

(5) 对 于 根 结 点 下 面 的 各 个 内 部 结 点 ,采用 递归 调用 的 方法 重复 步骤 (1) 一 (4) ,继续 选择 最 佳 的 分 
枝 属 性 作为 内 部 结 点 ,直到 所 有 的 样本 都 被 归 类 于 某 个 叶 结 点 为 止 。 
说 明 : 对 于 每 个 内 部 结 点 ,在 进行 上 述 操作 时 使 用 的 数据 不 再 是 Xs ,而 是 该 结 点 上 所 包含 

的 样本 子 集 。 此 外 ,选择 下 层 结 点 的 分 枝 属性 时 ,上 层 结 点 中 用 到 的 描述 属性 不 再 作为 候选 属性 。 


图 5.3 ID3 算法 的 操作 步骤 
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由 以 上 分 析 可 以 看 出 ,数据 划分 是 决策 树 分 类 方法 的 重要 思想 。 也 就 是 说 ,决策 树 分 类 
方法 采用 自 顶 向 下 的 递归 方式 ,将 原始 的 样本 空间 划分 成 若干 更 小 的 样本 空间 ,再 对 它们 单 
独 进 行 处 理 。 


533 ID3 算 法 应 用 举例 
本 节 通 过 一 个 应 用 实例 来 说 明 ID3 算法 在 生成 决策 树 时 是 怎样 选择 根 结 点 和 各 个 内 部 


结 点 的 。 
【 例 5.1】 根据 表 5. 2 中 给 出 的 训练 集 , 利 用 ID3 算法 生成 决策 树 , 即 选择 根 结 点 和 各 
内 部 结 点 上 的 分 枝 属性 。 


【 解 】 问题 的 求解 过 程 分 为 以 下 几 个 部 分 。 

(1) 计算 对 训练 集 分 类 所 需 的 期 望 信息 。 

因为 给 定 训练 集中 的 样本 数量 为 total 一 14, 类 标号 为 cl (表示 买 保险 ) 的 样本 数量 为 
训 二 9, 类 标号 为 c( 表 示 不 买 保险 ) 的 样本 数量 为 ns 二 5, 所 以 训练 集中 两 个 类 别 的 先 验 概 
率 分 别 为 


m1 9 _ n, _5 
De) ol ™ 1a" Hot 4 
根据 式 (5-6) ,对 训练 集 分 类 所 需 的 期 望 信息 为 
2 
Tu.ns)=— Plc)logs (P(e)) 
j=1 
on (的 -总 全 
14 9" 多 \14)14 °8\1 


人 0. 94 

(2) 计算 各 个 描述 属性 划分 训练 集 时 的 信息 增益 。 

首先 ,计算 第 一 个 描述 属性 A; (公司 职员 ) 的 烂 。A; 包含 两 种 具体 取 值 ,第 一 种 取 值 为 
“是 ”, 表 示 数 据 样本 是 公司 职员 ; 第 二 种 取 值 为 “ 否 ”, 表 示 数 据 样本 不 是 公司 职员 。 利 用 该 
描述 属性 可 以 将 训练 集 划分 为 两 个 样本 子 集 : X 和 Xs* 。 样 本 子 集 Xi 中 的 数据 样本 都 是 
公司 职员 ,而 样本 子 集 X; 中 的 数据 样本 都 不 是 公司 职员 。 

样本 子 集 Xi 中 的 样本 数量 为 m 二 7, 其 中 类 标号 为 c, 的 样本 数量 m 一 6, 类 标号 为 c 
的 样本 数量 为 mz 一 1, 则 样本 子 集 X 中 两 个 类 别 的 数据 样本 所 占 的 比例 分 别 为 


nu 6 7221 1 


Pn 1 了 Pa 1 
根据 式 (5-8) ,可 以 得 到 


2 
IT(nu ona)=— > pnlog: (pn) 


二 1 


=— pulog: (pn) 一 palogz (p21) 


加 6 1 lo 1 
7 8 了 7 gz| 7 


A 0. 592 
样本 子 集 X, 中 的 样本 数量 为 ,一 7, 其 中 类 标号 为 c 的 样本 数量 mm 一 3, 类 标号 为 c 
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的 样本 数量 为 wz? 一 4, 则 样本 子 集 X。 中 两 个 类 别 的 数据 样本 所 占 的 比例 分 别 为 


7212 3 7222 4 


pr 7， p22 7 
根据 式 (5-8) ,可 以 得 到 


2 
I(m2 ,rzz) 一 一 >) plogs (ps) 
i=1 
一 一 pizlogz (p12) 一 pzzlog: (p22) 


31 8) 4 | E 
7 


A 0.985 
根据 式 (5-7) ,计算 出 由 描述 属性 A; (公司 职员 ) 划 分 训练 集 时 所 得 的 业 为 


2 nn 清汤 
E(A)= >) a Tn nes) 


s=1 


n nn 7 nn 
一 Ww Ty 7121 ) 十 Mh 十 za J (7,,, »7122 ) 
total total 


7 让 7 
兰 2 十 -一 X0.985 
14 X0592+14 XO0.985 


A 0.789 
根据 期 望 信息 T(x ,ns) 和 焙 E(A1), 并 且 根 据 式 (5-9), 可 以 得 到 描述 属性 A, 划分 训 
练 集 时 的 信息 增益 为 
Gain(A1)= I(n,ns) 一 天 (Ai) 
一 0.94 一 0.789 
一 0.151 
同 理 , 可 以 计算 出 描述 属性 A: (年 龄 )、A3( 收 入 ) 和 A, (信誉 度 ) 划 分 训练 集 时 的 信息 增 
益 , 它 们 的 值 分 别 为 
Gain(A:) = 0.246, Gain(A;3) = 0.029, Gain(A:) = 0.048 
可 以 看 出 ,描述 属性 A。 划分 训练 集 时 得 到 的 信息 增益 的 值 最 大 ,所 以 选择 它 作 为 决策 
树 的 根 结 点 。 由 于 描述 属性 A 有 3 种 具体 取 值 .所 以 它 包含 3 个 分 枝 。 也 就 是 说 ,描述 属 
性 A, 按照 年 龄 过 40 ,41 一 50 和 二 50 将 表 5. 2 中 的 训练 集 划分 为 3 个 样本 子 集 ,如 表 5. 3、 
表 5.4 和 表 5.5 所 示 。 


表 5.3 表 5.2 的 训练 集 对 应 年 龄 三 40 的 样本 子 集 


公司 职员 收入 信誉 度 买 保险 
否 高 良 cz 
否 高 优 cz 
否 中 良 cz 
是 低 良 a 
是 中 优 a 
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表 5.4 表 5.2 的 训练 集 对 应 年 龄 41 一 50 的 样本 子 集 

公司 职员 收入 信誉 度 买 保险 
否 高 良 a 
是 低 优 a 
否 中 优 a 
是 高 良 a 

表 5.5 表 5.2 的 训练 集 对 应 年 龄 二 50 的 样本 子 集 

公司 职员 收入 信誉 度 买 保险 
否 中 良 a 
是 低 良 a 
是 低 优 < 
是 中 良 a 
否 中 优 cz 


其 中 , 表 5.4( 年 龄 在 41 一 50) 对 应 的 样本 子 集 都 属于 同一 个 类 别 , 即 类 别 属性 C( 买 保 
险 ) 的 取 值 都 为 ci ,所 以 这 个 子 集 没 有 必要 再 继续 划分 了 ,可 以 将 它 标注 为 一 个 叶 结 点 ,而 且 
叶 结 点 的 类 标号 为 cl 。 对 于 另外 两 个 样本 子 集 ( 表 5. 3 和 表 5. 5) ,由 于 数据 样本 的 类 标号 
不 统一 ,需要 继续 划分 。 

(3) 对 数据 集 进行 继续 划分 。 

对 于 表 5. 3( 年 龄 过 40) 和 表 5. 5( 年 龄 二 50) 对 应 的 样本 子 集 , 利 用 上 述 方法 继续 挑选 信 
息 增益 的 值 最 大 的 描述 属性 作为 内 部 结 点 上 的 分 枝 属性 ,直到 得 到 叶 结 点 。 需 要 注意 的 是 ， 
在 计算 信息 增益 时 ,不 需要 再 计算 属性 A: (年龄 ) 的 信息 增益 了 ,也 就 是 说 ,在 选择 下 层 结 点 
的 分 枝 属 性 时 ,不 需要 再 计算 上 层 结 点 中 分 枝 属性 的 信息 增益 了 。 

经 过 上 述 迭 代 过 程 ,可 以 得 到 图 5. 2 所 示 的 决策 树 。 


534 决策 树 算法 C45 


ID3 算法 存在 以 下 缺点 。 

(1) ID3 算法 在 选择 根 结 点 和 各 内 部 结 点 中 的 分 枝 属性 时 ,使 用 信息 增益 作为 评价 标 
准 。 信 息 增 益 的 缺点 是 倾向 于 选择 取 值 较 多 的 属性 ,在 有 些 情况 下 这 类 属性 可 能 不 会 提供 
太 多 有 价值 的 信息 。 

(2) ID3 算法 只 能 对 描述 属性 为 离散 型 属性 的 数据 集 构造 决策 树 。 

针对 ID3 算法 的 不 足 , 决 策 树 算法 C4. 5 的 改进 如 下 所 示 。 

(1) C4. 5 算法 使 用 信息 增益 比 来 作为 选择 根 结 点 和 各 内 部 结 点 中 分 枝 属性 的 评价 标 
准 , 克 服 了 ID3 算法 使 用 信息 增益 选择 属性 时 偏向 于 取 值 较 多 的 属性 的 不 足 。 

在 选择 决策 树 中 某 个 结 点 上 的 分 枝 属性 时 ,假设 该 结 点 上 的 数据 集 为 ,其 中 包含 d 
个 描述 属性 ,样本 总 数 为 total。 设 描述 属性 Aj(f 二 1,2,…,d) 具 有 g 个 不 同 的 取 值 (a1y， 
azj，…sawy} ,利用 描述 属性 Ar 可 以 将 数据 集 X 划分 为 g 个 子 集 {Xi ,XX ,…,X,), 其 中 
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X,(Gs 一 1,2,…,q) 中 的 样本 在 Ar 上 具有 相同 的 取 值 cy 。 设 ns 表示 子 集 X, 中 的 样本 数量 ， 
则 描述 属性 Aj 划分 给 定数 据 集 X 的 信息 增益 比 的 定义 式 如 式 (5-10) 所 示 。 
_ Gain(A7) 
split(A7) 
在 式 (5-10) 中 ,分 子 Gain(Ay) 的 定义 式 如 式 (5-9) 所 示 ; 分 母 split(Ay) 的 定义 式 如 
式 (5-11) 所 示 。 


Gain_ratio(Ay) 


， f=1,2,…,d (5-10) 


. 
split(Ay) Se xu 全 )， 三 一 1,2，…d (5-11) 


={ total total 

C4.5 选择 信息 增益 比 最 大 的 描述 属性 作为 分 枝 属性 。 

(2) C4. 5 既 可 以 处 理 离散 型 描述 属性 ,也 可 以 处 理 连续 型 描述 属性 。 在 选择 某 结 点 上 
的 分 枝 属 性 时 ,对 于 离散 型 描述 属性 ,C4. 5 的 处 理 方法 与 ID3 相同 ,按照 该 属性 本 身 的 取 值 
个 数 进行 计算 ; 对 于 某 个 连续 型 描述 属性 A ,假设 在 某 个 结 点 上 的 数据 集 的 样本 数量 为 
total,C4. 5 将 作 以 下 处 理 。 

@ 将 该 结 点 上 的 所 有 数据 样本 按照 连续 型 描述 属性 的 具体 取 值 ,由 小 到 大 进行 排序 ， 
得 到 属性 值 的 取 值 序列 {Ai ,Azc，… ,A ) 。 

@ 在 {Ai ,Aze，… ,Awmr) 中 生成 total 一 1 个 分 割 点 。 第 i(1 志 i 和 total 一 1) 个 分 割 点 的 
取 值 设置 为 wv, 二 (Ai 十 Actv.)/2, 它 可 以 将 该 结 点 上 的 数据 集 划 分 为 两 个 子 集 , 即 描述 属性 
A. 的 取 值 在 区 间 [Ai ,wj 的 数据 样本 和 在 区 间 (v;, Aww 的 数据 样本 。 由 于 描述 属性 A, 的 
取 值 序列 包含 total 一 1 个 分 割 点 ,所 以 它 对 数据 集 的 划分 有 total 一 1 种 方式 。 

@ 从 total 一 1 个 分 割 点 中 选择 最 佳 分 割 点 。 对 于 每 一 个 分 割 点 划分 数据 集 的 方式 ， 
C4.5 计算 它 的 信息 增益 比 ,并 且 从 中 选择 信息 增益 比 最 大 的 分 割 点 来 划分 数据 集 。 

下 面 举 例 说 明 连 续 型 描述 属性 的 处 理 方法 。 将 表 5. 2 中 的 离散 型 描述 属性 A, (年 龄 ) 
改 为 连续 型 描述 属性 ,计算 根 结 点 上 的 分 枝 属性 时 ,要 用 到 表 5.2 中 的 所 有 数据 样本 ,假设 
数据 样本 的 年 龄 序列 为 {32,25,46,56,60,52,42,36,23,51,38,43,41,65)}。 在 计算 A, 划 
分 数据 集 的 信息 增益 比 时 ,需要 进行 如 下 处 理 。 

Q@ 对 年 龄 序列 由 小 到 大 排序 ,新 的 序列 为 {23,25,32,36,38,41,42,43,46,51,52,56， 
60,65}。 

@ 对 新 的 年 龄 序列 生成 分 割 点 ,由 于 样本 数量 为 14, 所 以 可 以 生成 13 个 分 割 点 。 第 一 
个 分 割 点 为 (23 十 25)/2 二 24, 它 可 以 将 数据 集 划 分 为 年 龄 在 区 间 [23,24] 的 数据 样本 和 在 区 
间 (24,65] 的 数据 样本 ,其 余 的 分 割 点 和 划分 方式 同 理 可 得 。 

@ 选择 最 佳 分 割 点 ,例如 ,对 于 第 一 个 分 割 点 ,可 以 计算 得 到 年 龄 在 区 间 [23,24] 和 
(24,65] 的 样本 数量 以 及 每 个 区 间 的 数据 样本 中 属于 各 个 类 别 的 样本 数量 。 由 此 ,根据 
式 (5-6) 一 式 (5-11) ,可 以 计算 出 第 一 个 分 割 点 的 信息 增益 比 。 其 余 分 制 点 的 信息 增益 比 
同 理 可 得 。 选 择 信息 增益 比 最 大 的 分 割 点 作为 描述 属性 A: (年 龄 ) 的 最 佳 分 割 点 。 

C4.5 的 算法 步骤 与 图 5. 3 所 示 的 ID3 的 算法 步骤 类 似 , 只 是 将 第 (3) 步 中 的 信息 增益 
改 为 信息 增益 比 ; 而 且 当 描述 属性 为 连续 型 属性 时 ,要 将 连续 属性 离散 化 ,并 且 从 中 选择 信 
息 增益 比 最 大 的 分 割 点 将 数据 集 划 分 为 两 个 样本 子 集 。 因 此 .本 节 不 再 列 出 C4. 5 的 算法 
步骤 。 
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535 SQL Server 2005 中 的 决策 树 应 用 


本 节 讲 述 如 何 使 用 SQL Server 2005 中 的 决策 树 方法 。 构 造 决策 树 所 使 用 的 数据 集 是 
SQL Server 2005 的 Adventure WorksDW 数据 库 中 的 vTargetMail 数据 集 。 该 数据 集中 
包含 32 个 属性 ,其 中 31 个 为 描述 属性 ,1 个 为 类 别 属性 。 本 节选 择 了 其 中 的 16 个 描述 属 
性 ,在 下 面 的 操作 步骤 中 会 对 这 些 属性 做 进一步 的 解释 。 数 据 集 的 类 别 属性 为 BikeBuyer， 
包含 两 种 取 值 ,0 代表 不 购买 自行 车 ,1 代表 购买 自行 车 。 

下 面 给 出 利用 决策 树 方法 进行 数据 分 析 的 操作 步骤 。 

(1) 创建 Analysis Services 项 目 。 

(2) 创建 数据 源 。 

上 述 两 个 步骤 与 第 4 章 4.4.2 节 中 的 步骤 (1) 一 (2) 相 同 , 这 里 不 再 歼 述 。 

(3) 创建 数据 源 视图 。 在 解决 方案 资源 管理 器 中 ,右键 单 击 “ 数 据 源 视图 ”, 从 弹出 的 快 
捷 菜单 中 选择 “新 建 数 据 源 视图 "命令 ,系统 将 打开 数据 源 视图 向 导 。 在 “欢迎 使 用 数据 源 视 
图 向 导 ” 页 上 , 单 击 “ 下 一 步 " 按 钮 。 在 “选择 数据 源 " 页 中 再 次 单 击 “ 下 一 步 "按钮 。 在 “选择 
表 和 视图 ”页 上 ,选择 dbo. vTargetMail 视图 ,然后 右 击 ,将 它 包 括 在 新 数据 源 视图 中 ,如 
图 5.4 所 示 。 


甬 数 据 源 视 图 向 导 -Iojxl 


选择 表 和 视图 
从 要 包含 在 数据 源 视图 中 的 关系 数据 库 中 选择 对 象 。 


包含 的 对 象 0 
称 


渤 加 引 关 表 R) 


< 上 - 步 g 完成 提 >>| | 。 取消 
a 


图 5.4 创建 数据 源 视图 


在 图 5. 4 中 , 单 击 “ 下 一 步 "按钮 ,在 随后 出 现 的 “完成 向 导 ” 页 上 ,默认 情况 下 ,系统 将 数 
据 源 视图 命名 为 Adventure Works DW. 单 击 “ 完 成 ”按钮 .数据 源 视 图 创建 成 功 。 

(4) 创建 决策 树 挖掘 结构 。 在 解决 方案 资源 管理 器 中 ,右键 单 击 “ 挖 掘 结构”, 从 弹出 的 
快捷 菜单 中 选择 “新 建 挖掘 结构 "命令 .系统 将 打开 数据 挖掘 向 导 。 在 “欢迎 使 用 数据 挖掘 向 
导 ” 页 上 , 单 击 “ 下 一 步 " 按 钮 。 在 “选择 定义 方法 ”页 上 .确认 已 选中 “从 现 有 关系 数据 库 或 数 
据 仓 库 ”, 再 单 击 “ 下 一 步 ” 按 钮 。 在 “选择 数据 挖掘 技术 ”页 的 “您 要 使 用 何 种 数据 挖掘 技 
术 ?” 下 拉 列 表 中 选择 “Microsoft 决策 树 ” 选 项 ,如 图 5. 5 所 示 。 


图 5.5 选择 Microsoft 决策 树 作为 挖掘 技术 


在 图 5. 5 中 , 单 击 “下 一 步 ? 按 钮 ,请 注意 在 随后 出 现 的 “选择 数据 源 视图 ”页 上 ,已 默认 
选中 Adventure Works DW。 单 击 “ 选 择 数据 源 视图 "页 上 的 “下 一 步 ” 按 钮 ,在 “指定 表 类 
型 "页 上 ,选中 vTargetMail 表 右边 事例 ” 列 中 的 复 选 框 ,如 图 5.6 所 示 。 在 图 5.6 中 , 单 击 
“下 一 步 ” 按 钮 ,出 现 “ 指 定 定型 数据 ”页 ,如 图 5.7 所 示 。 在 图 5.7 中 ,确保 已 选中 CustomerKey 
列 右边 * 键 ? 列 中 的 复 选 框 ,选中 类 别 属 性 BikeBuyer 列 右边 的 “输入 ”和 * 可 预测 ” 复 选 框 ,并 
且 从 属性 列表 中 选择 16 个 描述 属性 ,选中 相应 的 “输入 ” 复 选 框 。16 个 描述 属性 的 信息 如 
表 5.6 所 示 。 


亡 广 三 


数据 挖掘 向 导 


et 梧 


[ | 


5.6 选择 vTargetMail 作为 事例 表 
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《数据 挖掘 向 导 -lo|x| 


指定 定型 数据 
指定 分 析 中 新 用 的 列 。 A< 


日 者 vTargetMail 
AddressLinel 口 已 口 
AddressLine2 [s| [| 口 
条 ge [=| La 日 
各 BkeBurer [a] 区 区 到 

Brthoate GD | 
司 CommuteDistance 全 La 口 
CustpmerAlternatekey 口 口 口 
司 Customerkey 中 | 

DateFirstPurchase [a Le 口 司 

为 当前 选 定 的 可 预测 内 容 提供 输入 建议 ; 

— ww | 
< 上 一 步 @) 完成 加 >>| 取消 

司 


图 5.7 指定 决策 树 分 析 中 所 用 的 属性 


表 5.6 决策 树 使 用 的 描述 属性 的 信息 


描述 属性 名 称 描述 属性 类 型 
Age 连续 属性 
CommuteDistance 离散 属性 
CustomerKey 离散 属性 
EnglishEduation 离散 属性 
EnglishOccupation 离散 属性 
FirstName 离散 属性 
Gender 离散 属性 
GeographyKey 离散 属性 
HouseOwnerFlag 离散 属性 
LastName 离散 属性 
MaritalStatus 离散 属性 
NumberCarsOwned 离散 属性 
NumberChildrenAtHome 离散 属性 
Region 离散 属性 
TotalChildren 离散 属性 
YealyIncome 连续 属性 


在 图 5. 7 中 单 击 “ 下 一 步 ” 按 钮 ,在 随后 的 “指定 列 的 内 容 和 数据 类 型 "页 上 , 单 击 “ 下 一 
步 ” 按 钮 ,出 现 “ 完 成 向 导 ” 页 ,如 图 5. 8 所 示 。 在 图 5. 8 的 “挖掘 结构 名 称 ” 文 本 框 中 输入 
DecisionTree, 在 “挖掘 模型 名 称 ” 文 本 框 中 输入 DecisionTree, 之 后 单 击 “ 完 成 ”按钮 。 由 此 
决策 树 挖 掘 结构 创建 完成 ,系统 将 打开 挖掘 结构 设计 器 ,显示 Adventure Works DW 挖掘 结 
构 视图 ,如 图 5.9 所 示 。 
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EEC  - 吕 


完成 向 导 v 
为 挖 所 结构 浊 供 名 称 ， 从 而 完成 数据 挖 扬 向 导 。 Cs 


按 握 结构 名 称 Q): 
[3 


控 所 模型 名 称 D): 
see FE 了] 


预览 0: 
SS ~ DeckionTres 
瑟 习 列 
Age 
Bke Buyer 
Commute Distance 
Custpmer Key 
English Eduation 
Englsh Dccupaton 
DFrtName 
可 Gander 
刁 
柯 House 
9 


Ti sot Nae 


图 5.8 完成 决策 树 挖掘 结构 向 导 


99 决策 树 - Microsoft visual Studio Walxl 
文件 E) 编辑 (E) ”视图 (Y) 项目 (E) 生成 (@@) ” 调 江 (D0) ”格式 (9) ”数据 库 (A) ”数据 源 视 图 (5) ” 挖 所 模型 (M) 工具 (D) 
窗口 Ww) 社区 (帮助 (由 
闻 " 回 各 |X 且 史 | 相 -人 -| |oeveopmeon -| 品 耳 必 团 口 - 

-x 

日 区 Decision tree Adventure Works DW.ds 
日 国 列 日 - 名 数 括 源 视图 
Aee 届 Adventure Works Dw.dsv 
Bike Buyer [4 2 
人 Conmute Distance vereetlail (dbov BS 
Custoner Alternate Xey 加 rrp 日 入 挖 所 结构 
i ER 从 Decision tree,dmm 
Enelish Education 本 七 角色 
.English Occupation re 七 程序 集 
各 First Nane 0 七 杂项 
车 Gender 
Geography Key re 
2 ee ee NameStyle 
pe Birthlate 
Narital Status ee 
办 Honber Cars Owned 
Wunber Children At some 
Region 
To:al Children 
Yearly Income 
就 绪 4 


图 5.9 Adventure Works DW 决策 树 挖掘 结构 视图 


(5) 设置 决策 树 挖掘 结构 的 相关 参数 。 在 “挖掘 模型 "选项 卡 上 单 击 鼠 标 右键 ,从 弹出 
的 快捷 菜单 中 选择 “设置 算法 参数 ”命令 ,系统 将 打开 “算法 参数 ”对 话 框 ,如 图 5. 10 所 示 。 
在 图 5. 10 的 “ 值 ” 列 中 ,为 要 更 改 的 算法 设置 新 值 ,如 果 未 在 “ 值 ” 列 中 输入 值 , Analysis 
Services 将 使 用 默认 参数 值 。 决 策 树 挖掘 结构 包括 如 下 参数 。 
。 COMPLEXITY_PENALTY : 决策 树 成 长 参数 。 此 值 减 小 会 使 决策 树 的 分 枝 和 层 
次 数目 增 大 ,此 值 增 大 会 导致 相反 的 结果 。 
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Decision tree.dmm [设计 ]| Adventure Works DW.dsv [设计] “起 区 页 | 
区 控 据 结构 [大 控 吉 模型 | 六 控 据 模型 查看 器 “| | 控 据 准确 性 图 表 | 元 控 据 模型 预测 


已 韦 承 | X 


[En 

攻 Bike Buyer 

车 Conmute Distance 

六 Castomer Mternate Key 
办 Costoner Key 

区 Emalish Education 

区 Emalish Oceupation 

车 First None 


刍 自 自白 国 自省 白 


人 EEC > 

于 ceoeraphy Key 

[House owner Flae 参数 四: 

区 Last Name - 范 力 
COMPLEXITY_PENALTY (0.01.0) 


Morita Status 

办 Monber Cars Dened 
[Wonber Children At Ho 
车 Betion 

和 Total chiliren 

车 rearly Ineome 


FORCE_REGRESSOR 
MAXINUM_INPUT_ATTRIBUTES 255 [0,65535] 
A 3 [0,65535] 

0.0,.. 


说明; 


指定 用 来 计算 拆 分 分 数 的 方法 。 可 用 的 方法 有 : Entropy (1)、Bayesian witnk2 | 
Prior (3) 或 Bayesian Dirichlet Equivalent with Unifomn prior (4)» 


可 


mg | mw | [me | we | ww | 
pA 


图 5.10 设置 决策 树 算法 参数 


回归 树 , 与 本 节 的 决策 树 无 关 。 


FORCE_REGRESSOR : 该 参数 强制 数据 集 用 作 回 归公 式 的 输入 变量 , 仅 限于 使 用 


MAXIMUM_INPUT_ATTRIBUTES: 算法 可 以 处 理 输入 属性 的 最 大 数量 。 
MAXIMUM_OUTPUT_ATTRIBUTES: 算法 可 以 处 理 分 类 属性 的 最 大 数量 。 
MINIMUM_SUPPORT: 指定 叶 结 点 中 必须 包含 的 最 小 样本 数量 。 此 值 小 于 1 表示 最 


小 样本 数量 为 总 数量 的 百分比 ,此 值 大 于 1 表示 最 小 样本 数量 为 指定 的 绝对 数量 。 


示 使 用 信息 增益 作为 度量 标准 。 


判断 。 


SCORE_METHOD: 指定 选择 分 枝 属 性 的 度量 标准 。 本 例 中 将 它 的 取 值 改 为 1, 表 


SPLIT_METHOD: 指定 分 支 模式 。 可 用 模式 有 二 元 分 支 . 完 整 分 支 或 根据 算法 


(6) 建立 决策 树 挖掘 模型 。 选 择 * 挖 掘 模型 查看 器 ?选项 卡 ,程序 问 是 否 建立 部 署 项 
选择 “是 ”, 在 接 下 来 的 “处 理 挖掘 模型 * 页 上 , 单 击 “ 运 行 ” 按 钮 , 出现“ 处 理 进度 ”窗口 ， 


图 5.11 所 示 。 
在 图 5. 11 中 ,处 理 进 度 完成 之 后 , 单 击 “ 关 闭 ” 按 钮 , 建 模 完成 。 


(7) 查看 挖掘 结果 。 再 次 选择 “挖掘 模型 查看 器 ”选项 卡 ,由 vTargetMail 数据 集 生成 


的 决策 树 如 图 5. 12 所 示 。 


日 苑 对 挖 据 结 构 'DecsionTree' 的 处 理 已 成 功 完成 。 
@y 开始 时 间 ; 2008-9-18 9;56:18; 结束 时 间 ; 2008-9-18 8:56:33; 持续 时 间 : 0:00:15 
田 孜 对 挖掘 模 型 DeckianTree' 的 处 理 已 成 功 完成 。 
加 也 对 维度 DecisionTree ~-MC-Custpmer key' 的 处 理 已 成 功 完成 。 
日 全 对 多 推 数据 集 "DecisionTree ~MC' 的 处 理 已 成 功 完成 。 
@y 开始 时 间 : 2008-9-18 8:56:20;， 结束 时 间 ; 2008-9-19 8:56:22; 持续 时 间 : 0:00:02 
图 网 对 度量 值 组 "CaseDetail M5’ 的 处 理 已 成 功 完成 


图 5.11 决策 树 挖掘 模型 处 理 进度 


Decision tree.dmm[ 设 计 ]|”Advenkurs Works DW.dsv [设计 ] 【 起 二 页 -x 
苏 控 据 结构 | 人 挖 所 模型 | 总 挖 所 模型 查看 器 | 3 挖 扬 准 确 性 图 表 | 好 挖 纪 模型 预测 
起 妃 模型 |Decision tree |] 查看 因由 crosoft Tree viewer 了 了 


决 第 树 | 依 入 关系 网 络 | 
@|a| SIS| 到 | i i | 冉 J 扩 展 ，|3 个 纪 8 


直方 图 条 数 ; 有 习 背景 | 全 部 事例 | 显示 纯 别 1 一 


English Education 


= * Bachelors’ 


Ane 
= B83 


English Education 不 等 于 “Bac… 


Number Cars Omed 


Nomber Cars Orned 
> 


| 


Comsure Distance 不 等 于 “10+… 


e Distance 


= "10+ Wiles’ 


图 5.12 由 vTargetMail 数据 集 生成 的 决策 树 
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536 决策 树 剪 枝 


在 有 些 情 况 下 ,由 训练 集 生成 的 决策 树 不 是 最 简单 .最 紧凑 的 决策 树 ,这 是 因为 许多 分 
枝 反 映 的 是 训练 集中 的 噪声 或 者 孤立 点 。 决 策 树 剪 枝 过 程 试图 检测 和 去 掉 这 种 分 枝 , 以 提 
高 对 未 知 类 标号 的 数据 进行 分 类 时 的 准确 性 。 决 策 树 剪 枝 主要 有 先 剪 枝 方法 .后 剪 枝 方法 
和 两 者 相 结合 的 方法 。 

先 剪 枝 方法 在 生成 决策 树 的 过 程 中 对 树 进行 剪 枝 。 也 就 是 说 ,不 再 将 某 些 内 部 结 点 上 
所 包含 的 样本 子 集 进 行 划分 ,从 而 提前 停止 分 枝 生成 过 程 。 一 旦 停止 分 枝 , 这 些 结 点 就 成 为 
叶 结 点 ,其 中 可 能 包含 不 同类 别 的 数据 样本 ,通常 用 多 数 样本 所 属 的 类 别 来 标记 这 个 叶 结 
点 。 在 先前 枝 方 法 中 ,通常 使 用 X”、 信 息 增益 等 评价 标准 来 衡量 各 分 枝 的 优 劣 。 如 果 在 某 个 
结 点 进行 分 枝 时 评价 标准 的 值 小 于 给 定 阅 值 , 则 停止 分 梳 。 在 实际 应 用 中 , 阐 值 的 选择 是 一 
个 难题 , 闵 值 过 高 ,被 剪 枝 的 决策 树 会 过 于 简化 ; 阔 值 过 低 , 有 些 多余 的 分 枝 没 有 被 剪 枝 。 

后 剪 枝 方 法 在 生成 决策 树 之 后 对 树 进行 剪 枝 ,通过 删除 某 些 结 点 的 分 枝 , 从 而 剪 掉 一 些 
内 部 结 点 。 决 策 树 最 下 面 的 未 被 剪 枝 的 结 点 成 为 叶 结 点 ,用 该 叶 结 点 中 多 数 样 本 所 属 的 类 
别 来 对 它 进 行 标记 。 代 价 复 杂 人 性 剪 枝 算法 是 后 剪 枝 方法 中 比较 常用 的 方法 。 

此 外 ,可 以 交叉 使 用 先 剪 枝 和 后 剪 枝 方法 ,形成 组 合式 方法 。 


5.4 支持 向 量 机 


支持 向 量 机 (support vector machine,SVM) 是 Vapnik 等 人 于 1995 年 提出 的 统计 学 习 
算法 ,具有 出 色 的 学 习性 能 ,尤其 是 泛 化 能 力 , 从 而 引起 了 人 们 对 这 一 方法 的 极 大 关注 。 支 
持 向 量 机 是 从 两 类 线性 可 分 情况 下 的 最 优 分 类 超 平面 提出 的 。 所 谓 最 优 分 类 超 平面 是 指 分 
类 超 平面 不 但 能 将 两 类 数据 样本 无 错误 地 分 开 ,而 且 要 使 两 类 数据 样本 的 分 类 间隔 最 大 。 
这 样 可 以 保证 获得 的 分 类 器 既 能 很 好 地 区 分 训练 集中 的 数据 样本 ,也 能 对 未 知 类 标号 的 数 
据 样本 有 很 好 的 泛 化 能 力 。 而 四 

设 线性 可 分 的 训练 集 为 Xe 一 {(zyy)1z 一 1， 
2.…',total) ,其 中 x;€ R* 是 4 维 空间 中 的 数据 样本 , 
yiE (十 1, 一 1) 是 类 标号 。 如 图 5. 13 所 示 , 假 设 及 为 从 
分 类 超 平面 ,Hi 和 态 ; 分 别 为 通过 两 类 数据 样本 中 离 。。 。。 
分 类 超 平面 最 近 的 点 并 且 平 行 于 分 类 超 平面 的 平面 ， 

则 五 和 五: 之 间 的 距离 叫做 分 类 间隔 (margin)。 此 
la 图 5.13 支持 向 量 机 的 分 类 示意 图 

样本 空间 中 的 线性 判别 函数 可 以 表示 为 g (x) 一 
w。ZX 十 b, 其 中 符号 *。 ”表示 点 乘 , 即 两 个 向 量 的 对 应 元 素 乘积 的 总 和 ; 是 分 类 阔 值 。 分 
类 超 平面 瓦 的 方程 为 


margin 


“十 5 一 0 (5-12) 

将 线性 判别 函数 进行 归 一 化 ,使 两 类 数据 样本 满足 |g (zx) | 三 1, 其 中 满足 |g(zx)| 王 1 的 

数据 样本 离 分 类 超 平面 及 最近。 也 就 是 说 ,如 果 要 求 分 类 超 平 面 太 将 两 类 数据 样本 正确 
分 类 , 它 需 要 满足 如 下 条 件 
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w。ZXi 十 b 宇 1， 如 果 一 十 1 (5-13) 
w。 Xi 十 b 志 一 1]， 如 果 y; = 一 1 (5-14) 
由 于 有 HH! 和 及 , 分 别 通过 两 类 数据 样本 中 离 分 类 超 平面 最 近 的 点 ,所 以 对 于 超 平面 Hi 
和 妃 : , 式 (5-13) 和 式 (5-14) 中 的 等 号 成 立 。 也 就 是 说 , 古 和 及, 的 方程 分 别 为 
w。ZXi 十 6 = 二 1， 如 果 y; = 十 1 (5-15) 
we。 Zi 十 b= 二 一 1]， 如 果 y; = 一 1 (5-16) 
下 面 求 超 平面 Hl 和 FH; 之 间 的 距离 , 即 分 类 间隔 。 如 
图 5. 14 所 示 , 以 两 维 空间 为 例 ,Hl 和 有; 由 超 平面 变 
为 直线 ,假设 1 是 万 ) 上 的 数据 样本 ,zsz 是 Xl 在 H; 
上 的 投影 样本 , 则 x 和 zs 之 间 的 关系 可 以 表示 为 


分 量 2 


Zi 一 zz 十 7 (5-17) 


而 
Twl 
其 中 +r 是 x 到 H, 的 垂直 距离 , 即 两 类 样本 之 间 的 分 类 
间隔 (margin)。 将 式 (5-17) 代 入 Hi 的 方程 式 (5-15) 中 ， 分 量 1 
将 zs 代入 Hs 的 方程 式 (5-16) 中 ,并 且 将 两 式 相 减 ,得 
到 两 类 样本 之 间 的 分 类 间隔 为 


图 5.14 支持 向 量 机 的 分 类 间隔 


2 
一 本 一 六 (5-18) 
“Te 


因此 ,使 分 类 间隔 -最 大 等 价 于 使 | zw | /2 或 者 ew ?72 最 小 。 

上 面 的 讨论 都 是 以 训练 集 线 性 可 分 为 前 提 的 , 当 训练 集 线 性 不 可 分 时 , 某 些 数据 样本 不 
能 满足 式 (5-13) 和 式 (5-14) 的 条 件 , 这 时 可 以 在 条 件 中 加 入 松弛 变量 $ 三 0(i 一 1,2,…， 
total) , 则 式 (5-13) 和 式 (5-14) 变 为 


W。2i 十 0 过 1 一 和 各， 如果 一 十 1 (5-19) 
w。 Xi 十 6 三 一 1 十 名， 如 果 y = 一 1 (5-20) 

可 以 看 出 ,上 面 的 两 个 公式 可 以 合并 为 
yiLw* zitb6]—1++é 220, i= 1,2,.… ,total (5-21) 


对 应 线性 可 分 情况 下 的 最 优 分 类 超 平面 ,线性 不 可 分 情况 下 的 最 优 分 类 超 平面 称 作 广 
义 最 优 分 类 超 平面 , 它 可 以 表示 为 以 式 (5-21) 为 约束 条 件 ,使 式 (5-22) 最 小 化 的 约束 优化 
问题 。 


total 
序 lawlz:C>s (5-22) 
i=1 


在 式 (5-22) 中 ,C 称 为 惩罚 参数 , 它 是 某 个 指定 的 常数 ,实现 控制 错 分 样本 的 比例 与 算 
法 复杂 度 之 间 的 折 中 。 松 弛 变量 5 三 0(i 一 1.2.….total) 的 作用 是 在 数据 集 线 性 不 可 分 时 
可 以 使 分 类 超 平面 更 加 鲁 棒 。 

对 于 上 述 约束 优化 问题 ,可 以 通过 构造 Lagrange 函数 转化 为 它 的 对 偶 问 题 , 即 以 
式 (5-24) 为 约束 条 件 , 使 式 (5-23) 最 大 化 的 约束 优化 问题 。 


total 


total 
max Q(a) 一 Da 一 寺 2 ony “过 (5-23) 
i=1 ij 一 1 


total 
Dayi=0, 0<a<Cc (5-24) 
i=1 
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其 中 ,ai(i 一 1,2,…,total) 称 为 Lagrange 系数 。 求 解 上 述 的 约束 优化 问题 ,可 以 得 到 一 组 最 
优 解 a? (i 二 1,2,… ,total) 和 4b”。 最 优 分 类 函数 可 以 表示 为 

f(x)= san( Sar ys 业 浊 让 机 ) (5-25) 
其 中 ,sgn() 为 符号 函数 , 当 括号 中 的 值 大 于 0 时 ,sgn() 的 值 为 十 1, 表 示 被 分 类 的 数据 样本 
的 类 标号 为 十 1; 当 括 号 中 的 值 小 于 0 始 ,sgn() 的 值 为 一 1, 表 示 被 分 类 的 数据 样本 的 类 标 
号 为 一 1。 此 外 ,多 数 训练 样本 的 a; 为 0; or 不 为 0 时 对 应 的 训练 样本 称 为 支持 向 量 ,它们 
只 是 训练 集中 很 少 的 一 部 分 。64* 是 分 类 阔 值 , 它 可 以 通过 两 类 中 任意 一 对 支持 向 量 的 值 
求 得 。 

以 式 (5-24) 为 约束 条 件 , 使 式 (5-23) 最 大 化 的 约束 优化 问题 中 ,点 乘 x;:。 x; 是 在 训练 
样本 的 原始 特征 空间 进行 计算 的 。 然 而 ,如 果 在 原始 特征 空间 中 的 分 类 问题 是 非 线性 的 ,可 
以 通过 某 种 非 线性 变换 将 原始 特征 空间 中 的 非 线性 分 类 问题 转换 为 一 个 高 维 空间 中 的 线性 
分 类 问题 ,从 而 在 新 的 空间 中 求 取 最 优 分 类 超 平面 。 为 了 完成 上 述 任务 ,可 以 通过 定义 核 了 
数 来 实现 。 假 设 用 核 函 数 K(xi,zxj) 一 p(x;)，g(zj) 来 代 蔡 点 乘 x;， xj ,其 中 影射 函数 og 将 
训练 样本 影射 到 新 的 空间 。 从 而 以 式 (5-24) 为 约束 条 件 , 使 式 (5-23) 最 大 化 的 约束 优化 问 
题 变 为 

total total 


maxQ(a) 一 Do — PanyiyK Cz) (5-26) 
i=1 ioj=1 


total 


>)ay =0, 0<a<C (5-27) 


式 (5-25) 的 最 优 分 类 丽 数 变 为 
total 
f(x) 一 sgn( Dat yiK Crisz) +6") (5-28) 
这 就 是 支持 向 量 机 的 分 类 函数 。 
在 支持 向 量 机 中 .最 常用 的 核 函 数 有 如 下 3 类 。 
(1) 多 项 式 核 函 数 , 表 达 式 为 


天 (ziyz) 一 (zi。 工 十 1)” (5-29) 
(2) 径 向 基 核 函数 ,表达 式 为 
i 
K(zi,7) = exp(— 1 | (5-30) 
(3) S 型 核 函数 ,表达 式 为 
K(xi,7) = tanh(Cu(Czi。Z) 十 c) (5-31) 


综 上 所 述 ,支持 向 量 机 的 任务 是 利用 训练 集 和 选 定 的 核 函 数 来 求解 以 式 (5-27 ) 为 约束 
条 件 ,使 式 (5-26) 最 大 化 的 约束 优化 问题 ,从 而 求 得 一 组 最 优 解 or (i 二 1,2,…,total) 和 464*， 
之 后 利用 式 (5-28) 所 示 的 最 优 分 类 函数 对 未 知 类 标号 的 数据 样本 进行 分 类 。 

最 常用 的 支持 向 量 机 工具 是 libsvm。libsvm 首先 使 用 svmtrain 命令 和 训练 集 文件 产 
生 一 个 中 间 文 件 , 之 后 使 用 svmpredict 命令 、 测 试 集 文件 和 中 间 文 件 对 支持 向 量 机 模型 的 
分 类 精度 进行 测试 。 需 要 注意 的 是 .libsvm 使 用 的 数据 集 的 属性 排列 顺序 为 


类 别 属 性 ,1: 描 述 属性 1,2: 描 述 属 性 2.3: 描 述 属性 3,… 
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这 与 分 类 问题 中 常用 的 方式 “描述 属性 1, 描 述 属 性 2, 描 述 属性 3,…, 类 别 属性 ”( 如 
表 5.1 所 示 ) 不 同 。libsvm 的 具体 用 法 请 参考 网 址 http://www. csie. ntu. edu. tw /一 
cjlin/libsvm/ 上 的 描述 。 


5.5 近邻 分 类 方法 


近邻 分 类 方法 最 初 是 由 Cover 和 Hart 于 1967 年 提出 的 。 近 邻 分 类 方法 具有 优良 的 分 
类 性 能 , 它 容易 理解 ,易于 实现 ,是 数据 挖掘 技术 中 重要 的 分 类 方法 之 一 。 近 邻 分 类 方法 又 
称 为 基于 实例 的 分 类 方法 ,与 其 他 分 类 方法 不 同 ,该 方法 不 需要 事先 进行 分 类 器 的 设计 ,而 
是 直接 使 用 训练 集 对 未 知 类 标号 的 数据 样本 进行 分 类 。 本 节 将 介绍 最 近邻 分 类 方法 和 &- 
近邻 分 类 方法 。 


55.1 最 近邻 分 类 方法 


给 定 训练 集 Xe 一 {(Cziyy)1i 一 1,2,…,total}, 其 中 数据 样本 x;(i 二 1,2,…,total) 用 4d 
维特 征 向 量 zi 一 (zavza,…'za) 来 表示 ,za ,zw，… ,Xu 分 别 对 应 d 个 描述 属性 Al ,As，…， 
Au 的 具体 取 值 ; y; (i 一 1,2,… ,total) 表 示 数 据 样本 x; 的 类 标号 ,假设 要 研究 的 分 类 问题 含 
有 mm 个 类 别 , 则 wE {a ,cso，… ,cn)。 最 近邻 分 类 方法 的 操作 步骤 如 图 5. 15 所 示 。 


输入 : 训练 集 X ,未 知 类 标号 的 数据 样本 z 一 (Zi ,zs ，… ,Ta)。 
输出 : 未 知 类 标号 的 数据 样本 z 的 类 标号 。 
(1) 对 于 未 知 类 标号 的 数据 样本 z, 按 照 下 式 计算 它 与 训练 集 Xe 中 每 一 个 数据 样本 的 欧 


氏 距 离 
dzzi) = /Dr —zx):, i=1,2,.,total 
名 


(2) 从 第 (1) 步 中 计算 得 到 的 total 个 欧 氏 距离 中 找 出 最 小 的 距离 。 假 设 d(x ,zx,)(pE (1, 
2,"…,total) ) 是 工 与 和 wn 中 各 数据 样本 的 最 小 距离 , 则 训练 样本 xz, 是 zx 的 最 近邻 。 

(3) 如 果 第 (2) 步 中 得 到 的 最 近邻 x 的 类 标号 y* 一 cvE {a ,co，… ,cn), 则 工 的 类 标号 为 c。， 
即 zxEcv。 


图 5.15 最 近邻 分 类 方法 的 操作 步骤 


上 述 分 类 决策 方法 称 为 最 近邻 分 类 方法 。 其 原理 是 : 对 于 未 知 类 标号 的 数据 样本 , 按 
照 欧 氏 距离 找 出 它 在 训练 集中 的 最 近邻 ,并 且 决 策 它 与 最 近邻 属于 同一 个 类 别 。 


552 k- 近 邻 分 类 方法 


在 最 近邻 分 类 方法 中 ,如 果 未 知 类 标号 的 数据 样本 在 训练 集中 的 最 近邻 属于 哪 一 个 类 
别 ,就 将 它 判 决 为 那 一 个 类 别 。 最 近邻 分 类 方法 容易 实现 ,非常 直观 。 但 是 , 当 数 据 集 的 各 
个 类 别 之 间 含 有 噪声 样本 时 ,使 用 最 近邻 分 类 方法 进行 分 类 时 ,比较 容易 受到 噪声 样本 的 干 
扰 。 例 如 ,如 果 未 知 类 标号 的 数据 样本 的 最 近邻 是 噪声 样本 时 ,分 类 决策 将 是 错误 的 。 

针对 上 述 分 析 , 下 面 介绍 最 近邻 分 类 方法 的 推广 算法 一 一 全 近邻 分 类 方法 。 假 设 给 定 与 
5. 5.1 节 相 同 的 训练 集 Xea ,A- 近 邻 分 类 方法 的 操作 步骤 如 图 5. 16 所 示 。A- 近 邻 分 类 方法 的 
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原理 是 : 对 于 未 知 类 标号 的 样本 ,按照 欧 氏 距离 找 出 它 在 训练 集中 的 个 最 近邻 ,如 果 & 个 近 
邻 中 多 数 样本 属于 哪 一 个 类 别 , 就 将 它 判 决 为 那 一 个 类 别 。 在 -近邻 分 类 方法 中 ,利用 个 近 
邻 对 未 知 类 标号 的 数据 样本 的 类 别 进行 投票 ,在 一 定 程度 上 减 小 了 噪声 样本 对 分 类 的 干扰 。 


输入 : 训练 集 Xu。 ,未 知 类 标号 的 数据 样本 x 二 (zi ,zs，… ,zs)。 
输出 : 未 知 类 标号 的 数据 样本 z 的 类 标号 。 
(1) 对 于 未 知 类 标号 的 数据 样本 <, 按照 下 式 计 算 它 与 训练 集 Xe 中 每 一 个 数据 样本 的 欧 


氏 距 离 
dlzsz) = /D0 zr), i=1,2,.,total 


(2) 将 第 (1) 步 中 的 所 有 欧 氏 距离 按照 由 小 到 大 的 顺序 进行 排序 ,并 且 取 前 & 个 距离 ,从 而 
找 出 zx 在 Xu 中 的 4 个 近邻 ,假设 户 ,pP;，… ,pn 分 别 是 k 个 近邻 中 属于 类 别 c ,cs ,，…， 
cm 的 样本 数量 。 

(3) 如 果 


ps = maxpisi = 1 ,2 77 


则 z 的 类 标号 为 c,, 即 xzE€c。 


图 5.16 A- 近 邻 分 类 方法 的 操作 步骤 


55.3 近邻 分 类 方法 应 用 举例 


【 例 5.2】 给 定 训练 集 为 六 ww 二 {Cxi,yi)1i 二 1,2,…,7) ,其 中 每 个 训练 样本 x; 是 一 个 
二 维特 征 向 量 ; y;:E€ {十 1, 一 1) 为 zx; 的 类 标号 , 即 训 练 集中 的 数据 样本 包含 两 个 类 别 。 现 有 
Zi 一 (1,0)7,zs 一 (0,0.6)T,zs 一 (0, 一 1)T7T,z 一 (0,0)T,zs 一 (0,2)7T,ze 一 (0, 一 2)7T,z? 一 
(一 2,0)7 ,其 中 和 一 办 一 凡 一 十 1, 一 站 一 y% 一 7 1。 对 于 未 知 类 标号 的 数据 样本 x 二 
(0.4,0)7 ,分 别 利用 最 近邻 分 类 方法 和 k- 近 邻 分 类 方法 (k= 二 3) 对 x 进行 分 类 。 

【 解 】 下 面 将 利用 两 种 近邻 分 类 方法 对 z 进行 分 类 。 

(1) 最 近邻 分 类 方法 。 对 于 未 知 类 标号 的 数据 样本 x 二 (0.4,0)" ,计算 它 与 训练 集 
Xu 中 了 7 个 训练 样本 的 欧式 距离 .并 且 找到 最 小 的 距离 。 通 过 计算 可 知 ,数据 样本 z 与 训练 
样本 x 之 间 的 距离 最 小 ,为 

d(xz,z4) (0.4 一 0)? 十 (0 一 0)? 一 0.4 
也 就 是 说 ,zs 是 xz 的 最 近邻 。 因 为 x 的 类 标号 为 y 一 一 1, 所 以 最 近邻 方法 将 z 的 类 标号 
也 标记 为 “一 1”。 

(2) A 近 邻 分 类 方法 (一 3)。 对 于 未 知 类 标号 的 数据 样本 z 一 (0.4:0)7 ,计算 它 与 训练 
集 Xea 中 7 个 训练 样本 的 欧式 距离 ,对 这 些 距 离 由 小 到 大 进行 排序 ,并 且 取 前 3 个 。 通 过 
计算 可 知 ,与 工 距 离 最 近 的 3 个 训练 样本 为 zi zi 和 xz 。 在 3 个 近邻 中 ,zs 的 类 标号 为 
一 1,z1 和 zs 的 类 标号 为 十 1, 因 为 多 数 近 邻 的 类 标号 为 十 1, 所 以 人 近邻 分 类 方法 将 z 的 类 
标号 标记 为 十 1 。 

从 例 5. 2 中 可 以 看 出 ,对 于 同样 的 训练 集 和 未 知 类 标号 的 数据 样本 ,两 种 近邻 分 类 方法 
对 其 分 类 的 类 标号 不 同 。 在 实际 应 用 中 , 随 着 训练 集 的 不 同 或 者 所 取 A& 值 的 变化 ,两 种 方法 
对 未 知 类 标号 的 数据 样本 的 分 类 结果 也 会 发 生 相 应 的 改变 。 
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5.6 小 结 


分 类 问题 是 数据 挖掘 领域 中 研究 和 应 用 最 为 广泛 的 技术 之 一 ,如 何 更 精确 、 更 有 效 地 分 
类 一 直 是 人 们 追求 的 目标 。 分 类 问题 首先 从 训练 集中 得 到 分 类 模型 ,之 后 对 未 知 类 标号 的 
数据 样本 进行 分 类 。 

本 章 首先 通过 引 例 介绍 分 类 问题 的 基本 概念 ; 其 次 ,对 分 类 的 过 程 和 评价 准则 进行 概 
述 ; 再 次 ,从 算法 的 原理 , 步 又 等 方面 ,对 决策 树 学 习 算 法 (ID3,C4. 5) 支持 向 量 机 和 近邻 分 
类 方法 进行 了 描述 与 分 析 : 决策 树 学 习 算 法 采用 自 项 向 下 的 递归 方式 产生 一 个 类 似 于 流程 
图 的 树 结 构 。 决 策 树 算 法 ID3 选择 分 枝 属 性 的 标准 是 信息 增益 ,并 且 只 能 处 理 描述 属性 为 
离散 型 属性 的 数据 集 ; C4. 5 选择 分 枝 属性 的 标准 是 信息 增益 比 , 既 可 以 处 理 离散 型 描述 属 
性 ,也 可 以 处 理 连 续 型 描述 属性 。 支 持 向 量 机 将 原始 特征 空间 中 的 非 线 性 分 类 问题 变换 为 
高 维特 征 空间 中 的 线性 分 类 问题 ,从 而 在 新 的 空间 中 求 取 最 优 分 类 超 平面 。 近 邻 分 类 方法 
分 为 最 近邻 分 类 方法 和 k- 近 邻 分 类 方法 ,对 于 未 知 类 标号 的 数据 样本 ,前 者 从 训练 集中 找 
出 它 的 最 近邻 ,决策 它 与 最 近邻 属于 同一 个 类 别 ; 后 者 从 训练 集中 找 出 它 的 个 最 近邻 ,如 
果 A 个 近邻 中 多 数 样 本 属于 哪 一 个 类 别 ,就 将 它 判 决 为 那 一 个 类 别 。 


5.7 习题 


. 分 类 的 过 程 包含 , 、 和 

. 分 类 器 设计 阶段 包含 三 个 过 程 : 、 和 

. 分 类 问题 中 常用 的 评价 准则 有 、 和 

. 支持 向 量 机 中 常用 的 核 函数 有 、 和 
什么 是 分 类 ? 分 类 的 应 用 领域 有 哪些 ? 

. 对 于 表 5.7 所 示 的 数据 集 ,利用 决策 树 算法 ID3 构造 决策 树 。 


表 5.7 习题 6 数据 集 


GD on 性 


Age Salary Class 
40 high cl 
40 high a 
40 low cz 
41~50 high wy 
40 low és 
之 50 low Cl 
二 50 low Cl 
>50 high cz 
41~50 high a 


7. 给 定 训练 集 为 Xs 二 (zi,yi)1i 二 1,2,…,7) ,其 中 每 个 训练 样本 zi 是 一 个 二 维特 
征 向 量 ; y:€ {十 1, 一 1) 为 xz; 类 标号 . 即 训 练 集中 的 数据 样本 包含 两 个 类 别 。 现 有 zi 一 (1， 
0)7,zz 一 (0,1)7,zs 一 (0, 一 0.6)7,z 一 (0,0.4)7,zs 一 (0,2.4)T,zs 一 (0, 一 1.6)7，,zy 一 
(一 2,0. 4)7 ,其 中 yy 一 yz 二 ys 二 十 1 ,4 一 ys 一 ye 二 yr 1。 对 于 未 知 类 标号 的 数据 样本 
工 二 (0.4,0.4)" ,分 别 利 用 最 近邻 分 类 方法 和 人 近邻 分 类 方法 (一 3) 对 zx 进行 分 类 。 
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数据 分 类 方法 是 在 已 知 类 标号 的 训练 集 基础 上 进行 分 类 器 设计 工作 
的 ,所 以 分 类 方法 又 称 为 监督 学 习 方法 。 但 是 ,在 许多 实际 的 应 用 领域 中 ， 
由 于 缺少 形成 类 别 的 先 验 知识 或 者 由 于 实际 工作 中 的 困难 ,搜集 或 者 存储 
的 数据 集 样本 没有 类 标号 。 对 于 没有 类 标号 的 数据 集 , 人 们 通常 使 用 聚 类 
分 析 方 法 对 其 进行 研究 和 处 理 , 试 图 从 中 挖掘 出 有 价值 的 信息 。 巾 于 使 用 
的 数据 集 样本 没有 类 标号 , 聚 类 分 析 方法 又 称 为 非 监督 学 习 方法 。 聚 类 分 
析 方 法 可 以 将 数据 集 划 分 为 多 个 类 别 ,由 此 可 以 给 每 个 样本 标注 类 标号 。 
聚 类 之 后 的 数据 集 可 以 直接 用 来 进行 科学 分 析 , 也 可 以 作为 其 他 方法 的 训 


6.1 引 例 


表 6. 1 给 出 了 一 个 聚 类 分 析 的 示例 数据 集 , 其 中 包含 两 个 描述 属性 ,不 
包含 类 别 属 性 。 表 中 共有 7 个 数据 样本 ,每 个 数据 样本 是 由 描述 属性 的 具体 
取 值 来 表示 的 。 聚 类 分 析 的 任务 是 将 这 7 个 数据 样本 划分 为 多 个 聚 类 ,即将 
相似 度 较 高 的 样本 归 为 一 个 类 别 。 例 如 ,对 于 表 6. 1 中 的 数据 集 , 可 以 使 用 
样本 之 间 的 距离 来 表示 相似 度 , 两 个 样本 之 间 的 距离 越 近 , 它 们 属于 一 个 聚 
类 的 可 能 性 就 越 大 。 


表 6.1 聚 类 分 析 示例 数据 集 


样本 序号 描述 属性 1 描述 属性 2 
zl 1 3 
Zz 1 6.5 
Zs 1.5 4 
x 4.5 7.5 
zs 4 8.5 
zs 5.5 9 
7 4.5 
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下 面 给 出 聚 类 的 定义 和 聚 类 分 析 所 使 用 数据 集 的 一 般 形式 。 

聚 类 分 析 是 将 物理 的 或 者 抽象 的 数据 集合 划分 为 多 个 类 别 的 过 程 , 聚 类 之 后 的 每 个 类 
别 中 任意 两 个 数据 样本 之 间 具 有 较 高 的 相似 度 ,而 不 同类 别 的 数据 样本 之 间 具 有 较 低 的 相 
似 度 。 相 似 度 可 以 根据 数据 样本 的 描述 属性 的 具体 取 值 来 计算 ,通常 采用 数据 样本 间 的 距 
离 来 表示 。 聚 类 分 析 是 非 监督 学 习 过 程 ,与 分 类 学 习 不 同 , 聚 类 所 要 划分 的 数据 集 没 有 预先 
定义 的 类 别 属性 , 即 数据 样本 没有 类 标号 。 

通过 上 述 介绍 ,可 以 将 聚 类 分 析 中 使 用 的 数据 集 表示 为 X 一 {zi|i 一 1,2,…'total) ,其 
中 数据 样本 zx; (i 二 1,2,… ,total) 用 d 维特 征 向 量 x; 二 (xa ,zw，… ,zu ) 来 表示 ,za ,Xi ，*…， 
zu 分别 对 应 a 个 描述 属性 Ai,A:,…'As 的 具体 取 值 。 描 述 属性 可 以 是 连续 型 属性 (如 
表 6. 1 所 示 ) 、 离 散 型 属性 或 者 混合 型 属性 。 此 外 ,不 同类 型 描述 属性 的 相似 度 的 计算 方法 
不 同 。 


6.2 聚 类 分 析 概 述 


聚 类 分 析 是 数据 挖掘 应 用 的 主要 技术 之 一 , 它 可 以 作为 一 个 独立 的 工具 来 使 用 ,将 未 知 
类 标号 的 数据 集 划 分 为 多 个 类 别 之 后 ,观察 每 个 类 别 中 数据 样本 的 特点 ,并 且 对 某 些 特定 的 
类 别 作 进一步 的 分 析 。 此 外 , 聚 类 分 析 还 可 以 作为 其 他 数据 挖掘 技术 (例如 分 类 学 习 、 关 联 
规则 挖掘 等 ) 的 预 处 理工 作 。 聚 类 分 析 在 科学 数据 分 析 、 商 业 、 生 物 学 、 医 疗 诊断 ,文本 挖掘 
和 Web 数据 挖掘 等 领域 都 有 广泛 应 用 。 在 科学 数据 分 析 中 ,例如 对 于 卫星 和 遥感 照片 , 聚 类 
可 以 将 相似 的 区 域 归 类 ,有 助 于 研究 人 员 根 据 具体 情况 做 进一步 分 析 ; 在 商业 领域 , 聚 类 可 
以 帮助 市 场 分 析 人 员 对 客户 的 基本 数据 进行 分 析 . 发 现 购买 模式 不 同 的 客户 群 ,从 而 协助 市 
场 调 整 销售 计划 ; 在 生物 学 方面 , 聚 类 可 以 帮助 研究 人 员 按 照 基因 的 相似 度 对 动物 和 植物 
的 种 群 进行 划分 ,从 而 获得 对 种 群 中 国有 结构 的 认识 ; 在 医疗 诊断 中 , 聚 类 可 以 对 细胞 进行 
归 类 ,有 助 于 医疗 人 员 发 现 异常 细胞 的 聚 类 ,从 而 对 病人 及 时 采取 措施 ; 在 文本 挖掘 和 Web 
数据 挖掘 领域 中 , 聚 类 可 以 将 网 站 数据 按照 读者 的 兴趣 度 进行 划分 ,从 而 有 助 于 网 站 内 容 的 
改进 。 

随 着 数据 挖掘 技术 的 不 断 发 展 , 聚 类 分 析 也 要 面 对 各 行 各 业 的 大 型 数据 库 或 者 数据 仓 
库 , 数 据 的 维 数 越 来 越 高 ,内 容 越 来 越 复杂 ,因此 聚 类 分 析 面 临 着 新 的 挑战 。 数 据 挖掘 技术 
对 聚 类 分 析 的 要 求 有 以 下 几 个 方面 。 

(1) 可 伸缩 性 。 在 以 往 的 应 用 中 , 聚 类 分 析 方 法 所 处 理 的 数据 集 都 是 小 数据 集 , 而 且 比 
较 有 效 。 然 而 , 随 着 大 型 数据 库 和 数据 仓库 的 广泛 使 用 , 聚 类 分 析 方 法 所 面 对 的 数据 集 包 含 
数 以 百 万 计 甚 至 更 多 的 数据 样本 。 面 对 大 数据 集 , 聚 类 分 析 方 法 对 数据 集 的 划分 结果 可 能 
会 与 理想 的 划分 存在 着 偏差 。 因 此 ,对 数据 集 的 处 理 具有 良好 的 可 伸缩 性 是 聚 类 分 析 的 重 
要 研究 内 容 。 

(2) 处 理 不 同类 型 属性 的 能 力 。 聚 类 分 析 中 的 许多 算法 都 是 针对 具有 连续 型 描述 属性 
的 数据 集 设 计 的 。 但 是 ,许多 领域 中 的 数据 集 还 包含 其 他 类 型 的 描述 属性 。 因 此 ,实际 应 用 
要 求 聚 类 算法 可 以 处 理 不 同类 型 属性 的 数据 集 ,例如 连续 型 属性 .二 值 离散 型 属性 .多 值 (大 
于 2) 离散 型 属性 和 混合 类 型 属性 等 。 

(3) 发 现任 意 形状 聚 类 的 能 力 。 许 多 聚 类 算法 是 基于 欧 氏 距离 和 曼哈顿 距离 度量 来 计 
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算数 据 样本 之 间 的 相似 度 的 ,基于 这 样 的 距离 度量 的 算法 倾向 于 将 数据 集 划 分 为 相近 大 小 
和 密度 的 球形 聚 类 。 然 而 ,在 实际 应 用 中 数据 集 可 以 是 任意 形状 的 ,基于 上 述 距离 度量 的 聚 
类 算法 在 处 理 其 他 形状 的 数据 集 时 可 能 会 产生 错误 的 划分 结果 。 因 此 ,提出 能 够 划分 任意 
形状 数据 集 的 聚 类 方法 是 非常 重要 的 。 

(4) 减 小 对 先 验 知识 和 用 户 自 定义 参数 的 依赖 性 。 许 多 聚 类 算法 要 求 用 户 事先 确定 一 
些 参数 ,如 希望 将 数据 集 划 分 的 类 别 数 .选择 数据 集 的 初始 划分 方式 等 。 上 述 参 数 的 确定 往 
往 依赖 于 用 户 对 实际 应 用 领域 的 先 验 知识 ,而 且 聚 类 的 结果 对 输入 参数 非常 敏感 ,不 同 的 参 
数 会 导致 不 同 的 聚 类 结果 。 因 此 , 减 小 对 先 验 知识 和 用 户 自 定义 参数 的 依赖 性 ,可 以 减轻 用 
户 进行 参数 设置 的 负担 ,也 使 得 对 聚 类 性 能 的 控制 相对 容易 。 

(5) 处 理 噪声 数据 的 能 力 。 大 多 数 数据 库 或 者 数据 仓库 中 都 包含 孤立 点 .缺失 值 和 错 
误 的 数据 ,数据 搜集 和 整理 ` 数 据 录入 时 出 错 , 或 者 数据 本 身 属 性 不 完整 都 可 能 导致 上 述 噪 
声 数据 的 出 现 。 噪 声 数 据 会 干扰 许多 聚 类 算法 的 聚 类 性 能 ,导致 低 质量 的 数据 集 划 分 。 因 
此 ,提高 聚 类 算法 的 抗 干扰 能 力 是 非常 必要 的 。 

(6) 可 解释 性 和 实用 性 。 用 户 往 往 希 望 聚 类 结果 是 可 解释 的 .可 理解 的 并 且 是 可 用 的 ， 
从 而 可 以 根据 聚 类 结果 进行 研究 和 分 析 。 在 低 维 情况 下 ,可 以 借助 于 可 视 化 手段 来 展示 聚 
类 结果 ; 在 高 维 情况 下 , 聚 类 结果 很 难 被 可 视 化 ,这 时 对 数据 降低 维度 会 有 所 帮助 。 研 究 具 
体 的 应 用 领域 对 选择 聚 类 方法 的 影响 是 值得 探讨 的 课题 。 

聚 类 分 析 中 包含 许多 聚 类 算法 ,在 实际 应 用 中 应 该 根据 不 同 的 目标 选择 相应 的 聚 类 算 
法 。 通 常 聚 类 算法 可 以 分 为 以 下 几 类 。 

(1) 划分 聚 类 方法 。 对 于 给 定 的 数据 集 , 划 分 聚 类 方法 通过 选择 适当 的 初始 代表 点 将 
数据 样本 进行 初始 聚 类 ,之 后 通过 迭代 过 程 对 聚 类 的 结果 进行 不 断 的 调整 ,直到 使 评价 聚 类 
性 能 的 准则 函数 的 值 达 到 最 优 为 止 。 

(2) 层次 聚 类 方法 。 层 次 聚 类 方法 将 给 定数 据 集 分 层 进行 划分 ,形成 一 个 以 各 个 聚 类 
为 结 点 的 树 型 结构 。 层 次 聚 类 方法 分 为 自 底 向 上 和 自 顶 向 下 两 种 方式 。 自 底 向 上 的 层次 聚 
类 方法 称 为 凝聚 型 层次 聚 类 ,初始 时 将 每 个 数据 样本 单独 看 作 一 个 类 别 , 之 后 逐步 将 样本 进 
行 合并 ,直到 所 有 样本 都 在 一 个 类 别 或 者 满足 终止 条 件 为 止 ; 自 顶 向 下 的 层次 聚 类 方法 称 
为 分 解 型 层次 聚 类 ,初始 时 将 所 有 样本 归 为 一 个 类 别 , 之 后 逐步 将 样本 分 解 为 不 同 的 类 别 ， 
直到 每 个 样本 单独 构成 一 个 类 别 或 者 满足 终止 条 件 为 止 。 

(3) 基于 密度 的 聚 类 方法 。 基 本 原理 : 当 临 近 区 域 的 数据 密度 大 于 某 个 净值 时 ,就 不 
断 进 行 聚 类 ,直到 密度 小 于 给 定 阔 值 为 止 。 也 就 是 说 ,每 一 个 类 别 被 看 作 一 个 数据 区 域 ,对 
于 某 个 特定 类 别 中 的 任 一 数据 样本 ,在 给 定 的 范围 内 必须 包含 大 于 给 定 值 的 数据 样本 。 基 
于 密度 的 聚 类 方法 可 以 用 来 去 除 噪声 样本 ,形成 的 聚 类 形状 也 可 以 是 任意 的 。 

(4) 基于 网 格 的 聚 类 方法 。 基 于 网 格 的 聚 类 方法 将 原始 的 数据 空间 量化 为 有 限 数目 的 
单元 ,并 且 由 这 些 单元 形成 网 格 结构 ,所 有 的 聚 类 操作 都 要 在 这 个 网 格 结构 上 进行 。 基 于 网 
格 的 聚 类 方法 的 处 理 速度 较 快 , 其 处 理 时 间 与 数据 样本 的 数量 无 关 , 而 是 与 量化 空间 中 每 一 
维 上 的 单元 数目 有 关 。 

聚 类 分 析 已 经 被 广泛 地 研究 了 许多 年 ,主要 集中 在 基于 距离 和 相似 度 的 算法 方面 。 其 
中 划分 聚 类 方法 k-means 和 层次 聚 类 方法 已 经 被 加 入 到 许多 统计 分 析 工 具 的 软件 包 中 , 作 
为 专门 的 聚 类 分 析 工 具 来 使 用 。 本 章 主要 介绍 划分 聚 类 方法 k-means 和 层次 聚 类 方法 的 原 


第 6 章 数据 聚 
理 和 算法 步骤 ,并 进行 实例 说 明 。 


6.3 聚 类 分 析 中 相似 度 的 计算 方法 


聚 类 分 析 方 法 将 给 定 的 数据 集合 划分 为 多 个 类 别 , 其 中 每 个 类 别 中 任意 两 个 数据 样本 
之 间 具 有 较 高 的 相似 度 ,而 不 同类 别 的 数据 样本 之 间 具 有 较 低 的 相似 度 。 数 据 样本 之 间 的 
相似 度 通 常用 样本 间 的 距离 来 表示 ,而 距离 是 通过 数据 样本 的 描述 属性 的 具体 取 值 来 计算 
的 。 在 不 同 的 应 用 领域 中 ,数据 样本 的 描述 属性 的 类 型 可 能 不 同 ,因此 相似 度 的 计算 方法 也 
不 同 。 下 面 分 别 介 绍 当 描 述 属性 为 连续 型 属性 、 二 值 离散 型 属性 、 多 值 离散 型 属性 以 及 混合 
类 型 属性 时 ,数据 样本 之 间 的 相似 度 计算 方法 。 


63.1 连续 型 属性 的 相似 度 计算 方法 


连续 型 属性 是 指 取 值 为 连续 值 的 属性 ,例如 年 龄 ,收入 和 距离 等 都 是 连续 型 属性 。 对 于 
这 种 类 型 的 属性 ,相似 度 的 计算 方法 如 下 所 示 。 

假设 给 定 的 数据 集 为 X= {x lm 二 1,2,…,total} ,XX 中 的 样本 用 a 个 描述 属性 Ai ,As,…， 
Au 来 表示 ,并 且 d 个 描述 属性 都 是 连续 型 属性 。 数 据 样本 zx 二 (xa vzos*** Ta) ,Xj 二 (xn, 
Za sTiH)。 其 中 ,zn ,xa ,Tau 和 zn ,zjz，… ,zi 分 别 是 样本 zx; 和 xi 对 应 d 个 描述 属性 
A1l,A,,…,As 的 具体 取 值 。 样 本 x; 和 x; 之 间 的 相似 度 通 常用 它们 之 间 的 距离 d (zi ,xj) 来 
表示 ,距离 越 小 ,样本 x; 和 x; 越 相 似 , 差 异 度 越 小 ; 距离 越 大 ,样本 zx; 和 < 越 不 相似 ,差异 
度 越 大 。 

用 连续 型 属性 表示 的 数据 样本 x; 和 zi 之 间 的 距离 d(x;,xj) 的 计算 方法 通常 有 如 下 
3 种 方式 。 

(1) 欧 氏 距离 (Euclidean distance) ,如 公式 (6-1) 所 示 。 


d(xzioz) = | > (za 一) (6-1) 
k=1 


(2) 曼哈顿 距离 (Manhattan distance) ,如 公式 (6-2) 所 示 。 
沁 
d(xisz)) = YD) | za — zn | (6-2) 
k=1 


(3) 明 考 斯 基 距 离 (Minkowski distance) ,是 欧 氏 距离 和 曼哈顿 距离 的 一 个 推广 。 当 gq 
的 值 为 1 时 , 明 考 斯 基 距 离 变 为 曼哈顿 距离 ; 当 g 的 值 为 2 时 , 明 考 斯 基 距 离 变 为 欧 氏 距 
离 。 明 考 斯 基 距离 如 公式 (6-3) 所 示 。 


d(xisxj) 一 3 | zx — 2 jay (6-3) 
上 述 三 种 距离 满足 如 下 的 数学 性 质 。 
(1) d(xzi,xj) 宇 0, 即 数据 样本 之 间 的 距离 是 非 负 值 。 
(2) d(xzi,xzi) 一 0, 即 数据 样本 与 自身 的 距离 为 0. 表 示 样 本 与 自身 之 间 的 相似 性 最 大 。 
(3) d(xziszj) 一 d(xzj ,Xi), 即 数据 样本 之 间 的 距离 是 对 称 的 ,计算 x; 和 zz; 之 间 的 距离 
等 价 于 计算 xz; 和 x; 之 间 的 距离 。 
(4) d(ziszj) 生 d(xi,z4) 十 d(x ,zj;), 即 数据 样本 之 间 的 距离 满足 三 角 不 等 式 的 性 质 。 
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连续 型 属性 可 以 用 多 种 度量 单位 来 表示 ,不同 的 度量 单位 会 导致 不 同 的 聚 类 结果 。 度 
量 单位 越 小 ,描述 属性 可 能 的 值 域 就 越 大 ,对 距离 计算 的 影响 越 大 ,从 而 对 聚 类 结果 的 影响 
也 越 大 ; 度量 单位 越 大 ,描述 属性 可 能 的 值 域 就 越 小 ,对 距离 计算 的 影响 越 小 ,从 而 对 聚 类 
结果 的 影响 也 相应 减 小 。 例 如 ,如 果 把 身高 作为 描述 属性 , 它 的 度量 单位 可 以 是 “ 米 ”, 也 可 
以 是 “厘米 "。 采 用 “ 米 " 作 为 度量 单位 时 ,假设 两 个 人 的 身高 分 别 为 1. 64 米 和 1.70 米 ; 采 
用 “厘米 "作为 度量 单位 时 , 则 两 个 人 的 身高 分 别 为 164 厘米 和 170 厘米 。 很 显然 ,根据 相似 
度 的 含义 ,采用 “ 米 ” 作 为 度量 单位 时 对 距离 计算 的 影响 要 小 于 “厘米 ”。 为 了 避免 度量 单位 
给 聚 类 带 来 的 影响 ,应当 对 数据 集中 的 属性 取 值 进行 标准 化 处 理 。 关 于 标准 化 处 理 的 具体 
方法 ,请 参阅 相关 文献 ,这 里 就 不 再 袭 述 了 。 


632 二 值 离散 型 属性 的 相似 度 计算 方法 


二 值 离散 型 属性 是 指 只 有 两 种 取 值 的 离散 型 属性 ,通常 用 1 代表 属性 的 一 种 取 值 ,用 0 
代表 属性 的 另 一 种 取 值 。 在 实际 的 应 用 领域 中 ,二 值 离散 型 属性 比较 常见 ,例如 性 别 是 男 还 
是 女 .体检 结果 是 否 合格 .考试 成 绩 是 否 通过 等 。 

对 于 二 值 离散 型 属性 ,如 果 采 用 与 连续 型 属性 相同 的 方法 来 计算 数据 样本 之 间 的 距离 ， 
即 表示 数据 样本 之 间 的 相似 度 会 导致 错误 的 聚 类 结果 ,因此 必须 应 用 适合 于 二 值 离散 型 属 
性 的 计算 方法 。 假 设 给 定 的 数据 集 为 X= 二 {x 1m 王 1,2,…,total) ,XX 中 的 数据 样本 用 4 个 
描述 属性 A1 ,A:,… ,As 来 表示 ,并 且 d 个 描述 属性 都 是 二 值 离散 型 属性 。 数 据 样本 x; 一 
(zayzeysyza) Tj 二 (Tn oT 9TH)。 其 中 ,za Xa，… ,Xu 和 zn,Tjz，"… ,Xn 的 值 是 0 或 
1。x; 和 x; 之 间 的 距离 d(xi ,zj ) 按 照 如 下 的 步骤 来 计算 。 

首先 ,统计 两 个 数据 样本 的 各 个 二 值 离散 型 属性 的 取 值 情况 。x; 和 zx; 的 各 属性 的 取 
值 情况 如 表 6. 2 所 示 。 


表 6.2 数据 样本 的 二 值 离散 型 属性 的 取 值 情况 


数据 样本 六 
1 0 合计 
数据 样本 芭 1 al a antaw 
aol aoo aol 十 aoo 
合计 an 十 ao aao 十 aoo Qn 十 aw 二 ao 十 aoo 


在 表 6. 2 中 ,an 表示 样本 zx; 和 x; 取 值 同时 为 1 的 二 值 离散 型 属性 个 数 ,a 表示 样本 
zi 取 值 为 1 而 样本 zx; 取 值 为 0 的 二 值 离散 型 属性 个 数 ,ao 表示 样本 zx; 取 值 为 0 而 样本 zx; 
取 值 为 1 的 二 值 离散 型 属性 个 数 ,ao 表示 样本 zx; 和 zx; 取 值 同时 为 0 的 二 值 离散 型 属性 个 
数 。an 十 aw 十 ao 十 ao 的 值 等 于 数据 集中 的 属性 的 总 个 数 4。 

其 次 ,根据 数据 样本 的 二 值 离散 型 属性 的 取 值 情况 计算 样本 之 间 的 距离 d(xi,xj))。 需 
要 说 明 的 是 ,对 称 的 二 值 离散 型 属性 和 不 对 称 的 二 值 离散 型 属性 的 d(x; ,zj ) 的 计算 方法 不 
同 ,下 面 分 别 进行 介绍 。 

(1) 对 称 的 二 值 离散 型 属性 是 指 其 取 值 为 1 或 0 时 同等 重要 。 例如 性 别 就 是 对 称 的 二 
值 离散 型 属性 ,用 1 表示 性 别 为 男 ,用 0 表示 性 别 为 女 ; 或 者 用 0 表示 性 别 为 男 ,用 1 表示 
性 别 为 女 都 是 等 价 的 ,两 种 取 值 没有 主 次 之 分 。 对 于 这 种 属性 ,d(x;,z; ) 的 计算 公式 为 
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dilo 下 Col 
all 十 alo 十 aol 十 aoo 


(2) 不 对 称 的 二 值 离散 型 属性 是 指 其 取 值 为 1 或 0 时 不 是 同等 重要 。 例 如 血液 的 检测 
结果 是 不 对 称 的 二 值 离散 型 属性 ,阳性 结果 的 重要 程度 要 远 远 高 于 阴性 结果 。 通 常用 1 来 
表示 重要 的 属性 取 值 (例如 阳性 ) ,而 用 0 来 表示 另 一 种 取 值 (例如 阴性 )。 对 于 这 种 属性 ， 
aziyzhi 门 的 计算 公式 为 


d(xzi,z)) 一 (6-4) 


alo 十 ao 


aal 十 ale 十 ao 
在 公式 (6-5) 等 号 右边 的 分 母 中 没有 ao ,这 是 因为 样本 x; 和 x; 取 值 同时 为 0 的 情况 
被 认为 不 重要 ,不 必 参 与 相似 度 的 计算 。 


63.3 多 值 离散 型 属性 的 相似 度 计 算 方 法 


多 值 离散 型 属性 是 指 取 值 个 数 大 于 2 的 离散 型 属性 。 例 如 ,年 龄 段 可 以 分 为 老年 .中 
年 .青年 ; 收入 可 以 分 为 高 .中 、 低 ; 信誉 度 可 以 分 为 优 、 良 、 差 等 。 假 设 一 个 多 值 离散 型 属 
性 的 取 值 个 数 为 N ,其 中 的 每 种 取 值 可 以 用 字母 ,符号 或 者 整数 集合 来 表示 。 

假设 给 定 的 数据 集 为 六 = {zm 二 1,2,…,total) ,XX 中 的 样本 用 4 个 描述 属性 Al， 
A。,…,As 来 表示 ,并 且 d 个 描述 属性 都 是 多 值 离散 型 属性 。 样 本 zx; 二 (xa ,zw，… ,zxw) 和 
ZZ 二 (zn sz， ,Xi ) 之 间 的 距离 d(xzi,xzj) 的 计算 公式 为 

三 后 (6=6) 

其 中 ,4d 为 数据 集中 的 属性 个 数 ,* 为 样本 zx; 和 zi 取 值 相 同 的 属性 个 数 。 

【 例 6.1】 根据 表 6. 3 中 给 出 的 数据 集 ,计算 第 一 个 数据 样本 和 其 他 各 个 数据 样本 之 
间 的 相似 度 。 


dziyzi) = (6-5) 


表 6.3 包含 多 值 离散 型 属性 的 数据 集 


样本 序号 年 龄 段 学 历 收入 
Tl 青年 研究 生 高 
x 青年 本 科 低 
Zs 老年 本 科 以 下 中 
Ti 中 年 研究 生 高 


【 解 】 从 表 6. 3 中 可 以 看 出 ,给 定数 据 集 包含 “年 龄 段 ”"“ 学 历 " 和 “收入 ”3 个 属性 ,也 
就 是 说 d 二 3。“ 年 龄 段 " 属 性 的 取 值 包含 老年 青年 、 中 年 ;“ 学 历 ” 属 性 的 取 值 包含 本 科 以 
下 本科、 研究 生 ;“ 收 入 ”属性 的 取 值 包含 高 .中 、 低 。 
根据 公式 (6-6) ,可 以 计算 zi 与 其 他 3 个 样本 之 间 的 相似 度 。 
d(xisz3) = 一- ~~ 0.67 


Ca = 一 -1 


7 3 2 0.33 


从 上 述 计算 可 以 看 出 ,样本 zk: 和 zs 之 间 的 距离 最 小 ,表示 它们 之 间 的 相似 度 最 大 ; zk 和 
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za 的 相似 性 较 小 ; zx: 和 zs 没有 相似 性 。 

在 实际 的 应 用 中 ,多 值 离散 型 属性 也 可 以 转化 为 二 值 离散 型 属性 。 表 6. 3 中 的 数据 可 
以 转化 为 表 6.4 中 的 数据 。 在 表 6.4 中 ,属性 不 再 是 “年 龄 段 ”"“ 学 历 ” 和 “收入 ”, 而 是 它们 
的 每 种 具体 取 值 。 


表 6.4 多 值 离散 型 属性 转化 为 二 值 离散 型 属性 


样本 序号 老年 。 中 年 。 青年 本 科 以 下 本 科 ”研究 生 高 申 低 
Zl 0 0 和 0 0 1 . 0 0 
za 0 0 0 0 0 0 下 
Zs 1 0 0 1 0 0 0 1 0 
x 0 1 0 0 0 1 Y 0 0 


多 值 离散 型 属性 转化 为 二 值 离散 型 属性 的 具体 做 法 是 ,为 每 个 多 值 离散 型 属性 的 每 种 
取 值 创建 一 个 不 对 称 的 二 值 离散 型 属性 ,如 果 数 据 样本 对 于 给 定 属性 的 值 是 其 多 种 取 值 中 
的 一 种 ,那么 这 个 取 值 标记 为 1, 其 他 取 值 标记 为 0。 例 如 ,对 于 数据 样本 xz ,在 表 6. 3 中 ， 
对 应 属性 “年 龄 段 ”"“ 学 历 " 和 "收入 ”的 取 值 为 青年 ,研究生 、 高 ; 而 在 表 6.4 中 ,只 有 属性 
“青年 ”"“ 研 究 生 ”" 和 “高 ”的 值 为 1, 其 余 属性 的 值 为 0。 对 于 表 6.4 中 的 数据 集 , 就 可 以 利用 
6. 3. 2 节 中 的 公式 (6-5) 来 计算 数据 样本 之 间 的 相似 度 了 。 


634 混合 类 型 属性 的 相似 度 计 算 方 法 


在 6.3.1 一 6.3.3 节 中 ,我 们 分 别 讨论 了 当 数 据 集 的 所 有 描述 属性 都 为 连续 型 属性 ,二 
值 离散 型 属性 或 者 多 值 离 散 型 属性 时 ,数据 样本 之 间 相似 度 的 计算 方法 。 但 是 ,在 实际 的 应 
用 中 ,数据 集中 包含 的 描述 属性 通常 不 只 一 种 类 型 ,可 能 是 各 种 类 型 属性 的 混合 体 。 

对 于 包含 混合 类 型 属性 的 数据 集 ,数据 样本 之 间 的 相似 度 计算 方法 需要 考虑 到 每 种 属 
性 自身 的 具体 情况 ,通常 有 如 下 两 种 方法 。 

(1) 将 属性 按照 类 型 分 组 , 则 原来 的 数据 集 就 变 成 了 多 个 新 的 数据 集 , 其 中 每 个 新 的 数 
据 集中 只 包含 一 种 类 型 的 属性 ; 之 后 对 每 个 数据 集 进 行 单独 的 聚 类 分 析 。 当 这 些 分 析 可 以 
得 到 兼容 的 结果 时 ,这 种 方法 是 可 行 的 。 但 是 ,在 实际 的 应 用 中 ,根据 每 种 类 型 的 属性 单独 
进行 聚 类 分 析 往 往 不 能 得 到 令 人 满意 的 聚 类 结果 。 

(2) 把 混合 类 型 的 属性 放 在 一 起 处 理 , 进 行 一 次 聚 类 分 析 。 假 设 给 定 的 数据 集 为 X 一 
{zn |m 二 1,2,…,total} ,X 中 的 数据 样本 用 d 个 描述 属性 A, ,A; ,…',Av 来 表示 ,其 中 的 属 
性 包含 多 种 类 型 。 数 据 样本 Zz 二 (za za za) sz 二 (zapTR XZ) ;其 中 zn 和 
Xx(1 三 kd) 分 别 表示 数据 样本 xz; 和 zx; 对 应 第 k 个 属性 的 具体 取 值 。 在 进行 聚 类 分 析 之 
前 ,对 于 连续 型 属性 ,将 其 各 种 取 值 进行 标准 化 处 理 ; 对 于 多 值 离散 型 属性 ,可 以 按照 6. 3. 3 
节 中 介绍 的 方法 将 其 转换 为 不 对 称 的 二 值 离散 型 属性 。 完 成 上 述 预 处 理工 作 之 后 ,数据 样 
本 zx; 和 zi 之 间 的 距离 (zs,zi) 按 照 如 下 的 公式 进行 计算 。 


d 

Pad 
d(xisx)) = (6-7) 
op 


k=1 
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在 公式 (6-7) 中 ,d 久 表示 数据 样本 x; 和 zz; 在 第 k 个 属性 上 的 距离 。d 史 可 以 根据 第 
个 属性 的 具体 类 型 来 进行 相应 的 计算 。 
中 当 第 上 个 属性 为 连续 型 时 


d® lr = | 
max | Zier Ta Toul | 一 min | ZirTop ss Tou | 


@ 当 第 & 个 属性 为 二 值 离散 型 属性 或 者 多 值 离散 型 属性 时 ,如 果 za 一 zj , 则 d 久 一 0; 
否则 ,4 多 一 1。 

6 沪 表 示 第 &A 个 属性 对 数据 样本 zx; 和 < 之 间距 离 计算 的 影响 , 它 的 取 值 情况 如 下 。 

Q@ 当 zx 或 者 zx 不 存在 , 即 属于 样本 zx; 或 者 x; 对 于 属性 & 没有 测量 值 时 ,6 多 一 0。 

@ 当 第 A 个 属性 为 不 对 称 的 二 值 离散 属性 ,并且 zz 一 太一 0 时 ,6 所 一 0。 

@ 除了 @ 和 @ 所 述 的 情况 外 ,在 其 他 情况 下 6 六 一 1 。 


6.4 k-means 聚 类 算法 


聚 类 分 析 的 研究 成 果 主 要 集中 在 基于 距离 (或 者 称 为 基于 相似 度 ) 的 聚 类 方法 ,用 距离 
来 作为 相似 性 度量 的 优点 是 直观 ,从 我 们 对 物体 的 识别 角度 来 分 析 , 同 类 的 数据 样本 应 该 是 
互相 靠近 的 ,不 同类 的 样本 应 该 相距 较 远 。 划 分 聚 类 方法 是 基于 距离 的 聚 类 方法 中 的 一 种 。 
k-means 聚 类 算法 是 划分 聚 类 方法 中 最 常用 .最 流行 的 经 典 算法 ,许多 其 他 的 方法 都 是 
k-means 聚 类 算法 的 变种 ,该 算法 已 经 被 加 入 到 许多 统计 分 析 工 具 的 软件 包 中 作为 专门 的 
聚 类 分 析 工 具 来 使 用 。k-means 聚 类 算法 将 各 个 聚 类 子 集 内 的 所 有 数据 样本 的 均值 作为 该 
聚 类 的 代表 点 ,算法 的 主要 思想 是 通过 迁 代 过 程 把 数据 集 划分 为 不 同 的 类 别 ,使 得 评价 聚 类 
性 能 的 准则 函数 达到 最 优 ,从 而 使 生成 的 每 个 聚 类 类 内 紧凑 .类 间 独 立 。k-means 聚 类 算法 
不 适合 处 理 离散 型 属性 ,但 是 对 于 连续 型 属性 具有 较 好 的 聚 类 效果 。 


641 kmeans 聚 类 算法 的 基本 概念 


划分 聚 类 方法 对 数据 集 进行 聚 类 时 包含 如 下 三 个 要 点 。 

(1) 选 定 某 种 距离 作为 数据 样本 间 的 相似 性 度量 。 

上 面 讲 到 ,k-means 聚 类 算法 不 适合 处 理 离 散 型 属性 ,对 连续 型 属性 比较 合适 。 因 此 ， 
在 计算 数据 样本 之 间 的 距离 时 .可 以 根据 实际 需要 选择 6. 3. 1 节 中 介绍 的 欧 氏 距离 .曼哈顿 
距离 或 者 明 考 斯 基 距 离 中 的 一 种 来 作为 算法 的 相似 性 度量 ,其 中 最 常用 的 是 欧 氏 距离 。 

(2) 选择 评价 聚 类 性 能 的 准则 函数 。 

k-means 聚 类 算法 使 用 误差 平方 和 准则 函数 来 评价 聚 类 性 能 。 给 定数 据 集 X, 其 中 只 
包含 描述 属性 ,不 包含 类 别 属性 。 假 设 XX 包含 k 个 聚 类 子 集 Xi ,X,,…,X; 各 个 聚 类 子 集 
中 的 样本 数量 分 别 为 m,ns，… ,ns; 各 个 聚 类 子 集 的 均值 代表 点 (也 称 聚 类 中 心 ) 分 别 为 
7 72，… ,m4。 则 误差 平方 和 准则 函数 如 公式 (6-8) 所 示 。 


大 


下 一 >) >) pml’ (6-8) 
i=1 pEX, 
其 中 ,均值 向 量 mw; 的 表达 式 为 
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0 (6-9) 


Ti pEX, 


误差 平方 和 准则 函数 表示 数据 集中 的 所 有 样本 与 相应 聚 类 中 心 的 方差 之 和 ,该 准则 的 
值 达到 最 优 时 可 以 使 各 个 聚 类 类 内 尽 可 能 地 紧凑 ,而 各 个 聚 类 之 间 则 尽 可 能 地 分 开 。 

注意 ,公式 (6-8) 和 公式 (6-9) 中 的 样本 p 和 均值 m; 都 是 特征 向 量 ,而 不 是 单个 的 数 
值 。 此 外 ,公式 (6-8) 中 样本 p 与 均值 m; 的 距离 采用 的 是 欧 氏 距离 ,适合 于 对 圆 形 或 者 球 
形 的 聚 类 子 集 进 行 分 析 。 当 然 , 也 可 以 采用 其 他 距离 ,如 曼哈顿 距离 和 明 考 斯 基 距 离 来 对 椭 
圆 形 或 者 椭 球 形 的 聚 类 子 集 进行 分 析 。 

(3) 选择 某 个 初始 分 类 ,之 后 用 迭代 的 方法 得 到 聚 类 结果 ,使 得 评价 聚 类 的 准则 函数 取 
得 最 优 值 。 

为 了 得 到 最 优 的 聚 类 结果 ,首先 要 对 给 定数 据 集 进 行 初 始 划分 ,通常 的 做 法 是 事先 从 数 
据 集中 选择 各 个 聚 类 的 代表 点 ,之 后 把 其 余 的 数据 样本 按照 某 种 方式 归 类 到 相应 的 聚 类 中 
去 。 关 于 聚 类 初始 代表 点 的 选择 ,一 般 有 以 下 几 种 方法 。 

中 根据 实际 问题 的 特点 ,按照 经 验 来 确定 聚 类 子 集 的 数量 ,从 数据 中 找 出 从 直观 上 看 
来 是 比较 合适 的 & 个 聚 类 的 初始 代表 点 。 

@ 将 数据 集 随 机 地 分 成 上 个 聚 类 ,之 后 计算 每 个 聚 类 的 均值 ,并 且 将 这 些 均 值 作为 各 
个 聚 类 的 初始 代表 点 。 

@ 随机 地 选择 & 个 数据 样本 作为 聚 类 的 初始 代表 点 。 

在 上 述 选择 代表 点 的 方法 中 ,第 @ 种 方法 是 k-means 聚 类 算法 最 常 采 用 的 方法 。 此 外 ， 
以 上 聚 类 初始 代表 点 的 选择 方法 都 是 有 启发 性 的 ,往往 带 有 选择 者 自身 的 主观 性 。 需 要 指 
出 的 是 , 聚 类 初始 代表 点 的 选择 往往 会 影响 聚 类 的 最 终 性 能 , 即 得 到 的 是 局 部 最 优 解 而 不 是 
全 局 最 优 解 。 

基于 上 述 分 析 , 给 出 k-means 聚 类 算法 的 操作 步骤 ,具体 内 容 如 图 6. 1 所 示 。 


输入 : 数据 集 X 二 {zx 1m 二 1,2,… ,total} ,其 中 的 数据 样本 只 包含 描述 属性 ,不 包含 类 别 属性 ; 

聚 类 个 数 。 

输出 : 使 误差 平方 和 准则 最 小 的 4 个 聚 类 。 

(1) 从 数据 集 X 中 随机 地 选择 A 个 数据 样本 作为 聚 类 的 初始 代表 点 ,每 一 个 代表 点 表示 一 个 
类 别 。 

(2) 对 于 X 中 的 任 一 数据 样本 zw(1 和 ms<totaD) ,计算 它 与 上 个 初始 代表 点 的 距离 ,并 且 将 它 划 
分 到 距离 最 近 的 初始 代表 点 所 表示 的 类 别 中 。 

(3) 完成 数据 样本 的 划分 之 后 ,对 于 每 一 个 聚 类 ,计算 其 中 所 有 数据 样本 的 均值 ,并 且 将 其 作为 
该 聚 类 的 新 的 代表 点 ,由 此 得 到 A 个 均值 代表 点 。 

(4) 对 于 X 中 的 任 一 数据 样本 z。(1 和 mstotaD) ,计算 它 与 4 个 均值 代表 点 的 距离 ,并 且 将 它 划 
分 到 距离 最 近 的 均值 代表 点 所 表示 的 类 别 中 。 

(5) 重复 步骤 (3) 和 (4), 直 到 各 个 聚 类 不 再 发 生变 化 为 止 , 即 误差 平方 和 准则 函数 的 值 达 到 
最 优 。 


图 6. 1 k-means 聚 类 算法 的 操作 步骤 


k-means 聚 类 算法 按照 数据 样本 间 的 相似 性 把 数据 集聚 类 为 若干 个 子 集 , 聚 类 的 结果 
使 评价 聚 类 性 能 的 误差 平方 和 准则 函数 的 值 达到 最 优 。 聚 类 过 程 中 通常 使 用 欧 氏 距离 作为 
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样本 间 的 相似 性 度量 ,从 而 把 给 定数 据 集 的 特征 空间 划分 为 若干 个 子 区 间 ,每 一 个 子 区 间 相 
当 于 一 个 聚 类 。 

k-means 聚 类 算法 中 聚 类 子 集 的 个 数 上 是 事先 给 定 的 ,在 此 基础 上 再 试图 得 到 一 个 最 
优 的 聚 类 性 能 。 当 聚 类 子 集 的 个 数 不 能 确定 时 ,可 以 对 不 同 的 & 值 使 用 多 次 k-means 聚 类 
算法 , 随 着 k 值 的 增加 ,评价 聚 类 性 能 的 误差 平方 和 准则 函数 的 值 会 相应 减 小 。 由 此 ,根据 
k 值 的 变化 可 以 得 到 一 个 误差 平方 和 准则 函数 变化 的 曲线 ,从 曲线 的 变化 规律 ,结合 实际 问 
题 的 经 验 ,找到 一 个 相对 最 合适 的 聚 类 个 数 。 


64.2 SQL server 2005 中 的 k-means 应 用 


本 节 讲 述 如 何 使 用 SQL Server 2005 中 的 k-means 聚 类 方法 ,与 第 5 章 5. 3.5 节 相 同 ， 
使 用 的 数据 集 是 SQL Server 2005 的 Adventure Works DW 数据 库 中 的 vTargetMail 数据 
集 。 该 数据 集中 包含 32 个 属性 ,其 中 31 个 为 描述 属性 ,1 个 为 类 别 属性 。 本 节选 择 与 第 5 
章 5. 3.5 节 相 同 的 16 个 描述 属性 。 由 于 上 聚 类 方法 使 用 的 数据 集 不 包含 类 别 属性 ,所 以 不 选 
择 类 别 属性 BikeBuyer。 

下 面 给 出 利用 k-means 聚 类 方法 进行 数据 分 析 的 操作 步骤 。 

(1) 创建 Analysis Services 项 目 。 

(2) 创建 数据 源 。 

(3) 创建 数据 源 视图 。 

上 述 三 个 步骤 与 第 5 章 5. 3. 5 节 中 的 步骤 (1)、(2)、(3) 相 同 , 这 里 不 再 袭 述 。 

(4) 创建 k-means 挖掘 结构 。 

在 解决 方案 资源 管理 器 中 ,右键 单 击 “ 挖 掘 结 构 ”, 在 弹出 的 快捷 菜单 中 选择 “新 建 挖 所 
结构 ”命令 ,系统 将 打开 数据 挖掘 向 导 。 在 “欢迎 使 用 数据 挖掘 向 导 ” 页 上 , 单 击 “ 下 一 步 ? 按 
钮 。 在 “选择 定义 方法 ”页 上 ,确认 已 选中 “从 现 有 关系 数据 库 或 数据 仓库 ”, 青 单 击 " 下 一 步 ” 
按钮 。 在 “选择 数据 挖 所 技术 ”页 的 “您 要 使 用 何 种 数据 挖掘 技术 ?” 下 拉 列 表 中 选择 
“Microsoft 聚 类 分 析 ” 选 项 ,如 图 6.2 所 示 。 


-Io| x| 
选择 数据 控 气 技术 
选择 对 于 售 正 执行 的 分 析 尖 型 玉 说 最 适用 的 数据 挖 所 技术 。 P< 
说 明 : 
ro 六 术 和 法 运用 淆 代 技 不 交 目下 近 生 的 订 兴 厂区 不 他 贡 其 下 芝 丰 瑞 本 
的 特征 。 基 要 入 也 要 按 中 的 一 肯 分 组 ， 雌 法 台 人 有 用 。 

< 上 -#a |[T—#00> | 5- | 了 8 | 
局 


6.2 选择 Microsoft 聚 类 分 析 作 为 挖掘 技术 
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在 图 6.2 中 , 单 击 “ 下 一 步 " 按 钮 ,在 随后 出 现 的 “选择 数据 源 视图 "页 上 ,请 注意 已 默认 
选中 Adventure Works DW。 单 击 “ 选 择 数据 源 视图 "页 上 的 “下 一 步 ”按钮 ,在 “指定 表 类 
型 ?页 上 ,选中 vTargetMail 表 右 边 * 事 例 ? 列 中 的 复 选 框 , 单 击 *“ 下 一 步 ?按钮 。 随 后 出 现 * 指 
定 定型 数据 ”页 ,如 图 6. 3 所 示 。 在 图 6. 3 中 ,确保 已 选中 CustomerKey 列 右边 * 键 ? 列 中 的 
复 选 框 , 并 且 从 属性 列表 中 选择 16 个 描述 属性 ,并且 选中 相应 的 “输入 ” 复 选 框 。16 个 描述 
属性 的 信息 如 第 5 章 5.3.5 节 中 的 表 5.6 所 示 。 


数据 挖 扬 向 导 -ojx 
指定 定型 数据 
指定 分 析 中 所 用 的 列 。 £ 


AddressLinel DD 日 口 
Addresstnez 日 | 口 | 口 
司 sp cr La 口 
BkeBuyer [= 日 口 
BirihDate rc rc [| 
CommuteDistance r La 口 
CustpmerAlternatekey [s] 已 [el 
Custpmerkey ba 请 口 
DateF rstPurchase 人 rc [mw] 口 加 | 
为 当前 选 定 的 可 预测 内 容 提供 薄 入 建议 ; 
建议 (0D 
vn FB] rte | sm | 


图 6.3 指定 聚 类 分 析 中 所 用 的 属性 


在 图 6. 3 中 单 击 * 下 一 步 "按钮 ,在 “指定 列 的 内 容 和 数据 类 型 "页 上 , 单 击 *“ 下 一 步 按 
钮 ,出 现 “ 完 成 向 导 ” 页 ,如 图 6.4 所 示 。 在 图 6. 4 的 “挖掘 结构 名 称 ” 文 本 框 中 输入 Cluster， 
“挖掘 模型 名 称 ” 文 本 框 中 输入 Cluster, 之 后 单 击 * 完 成 按钮 ,由 此 k-means 挖掘 结构 创建 
完成 。 系 统 将 打开 挖掘 结构 设计 器 ,显示 Adventure Works DW 挖掘 结构 视图 ,如 图 6.5 所 示 。 


完成 向 导 
为 挖 据 结构 提供 名 称 ， 从 而 完成 数据 挖 扬 向 导 。 


控 据 结构 和 名称) 
Few 
控 据 模型 名 称 (D): 
uster 口 允许 钻 取 CD 
预览 W: 


加 


6.4 完成 聚 类 挖掘 结构 向 导 


窗口 (WD) ”社区 (CO 帮助 (由 


A J vc- 


文件 ”编辑 (E) ”视图 (YW) 项 目 (PE) ”生成 (8) ”调试 D) ”格式 (0) ”数据 库 (A) 


| peveopmenr “| 名字 兴国 口 


141 
第 6 章 数据 聚 


=I9lx| 
数据 宕 视图 (5) ” 挖 所 模型 (4) 工具 (D) 


加 | 


Commute Distance 
Customer Key 
English Education 


车 English Occupation 


车 House Owner Flag 
区 Last Hane 
芥 marital Status 


Wumber Cars Owned 


二 Number Children At - 


Region 


车 Total Children 四 


司 areetuhil (ov 


时 CustomerKey 
GeographyKey 
CustomerAlternat, 
Title 
FirstNane 
MiddlelNane 
LastHNane 
VaneStyle 
BirthDate 
NaritalStatus 


图 6.5 Adventure Works DW 聚 类 挖掘 结构 视图 


(5) 设置 k-means 挖掘 结构 的 相关 参数 。 

在 “挖掘 模型 "选项 卡 上 单 击 鼠 标 右键 ,从 弹出 的 快捷 菜单 中 选择 “设置 算法 参数 ”命令 ， 
系统 将 打开 “算法 参数 ”对 话 框 ,如 图 6.6 所 示 。 

在 图 6.6 的 “ 值 ? 列 中 ,为 要 更 改 的 算法 设置 新 值 ,如 果 未 在 * 值 ? 列 中 输入 值 ,Analysis 
Services 将 使 用 默认 参数 值 。k-means 挖掘 结构 包括 如 下 参数 。 

。 CLUSTER_COUNT: 指定 算法 所 要 建立 的 聚 类 的 近似 数目 。 本 例 将 它 设置 为 6。 

。 CLUSTER_SEED: 指定 聚 类 的 初始 代表 点 的 个 数 。 


(6) 建立 k-means 挖掘 模型 。 

选择 “挖掘 模型 查看 器 ”选项 卡 ,程序 问 是 否 建 立 部 署 项 目 , 选 择 * 是 ”。 在 接 下 来 的 “处 
理 挖 掘 模型 页 上 , 单 击 * 运 行 ?按钮 ,出 现 * 处 理 进 度 ” 页 .如 图 6.7 所 示 。 

在 图 6.7 中 ,处 理 进度 完成 之 后 . 单 击 “ 关 闭 ” 按 钮 . 建 模 完成 。 


CLUSTERING_METHOD: 指定 使 用 哪 种 聚 类 方法 。 本 例 将 它 的 值 设 为 4, 表示 
k-means。 
MAXIMUM_INPUT_ATTRIBUTES: 算法 可 以 处 理 的 输入 属性 的 最 大 数量 。 
MAXIMUM_STATES: 指定 算法 中 输入 属性 取 值 的 最 大 个 数 。 
MINIMUM_SUPPORT: 指定 每 个 聚 类 子 集中 所 包含 的 最 小 样本 个 数 。 
MODELLING_CARDINALITY: 指定 聚 类 处 理 期 间 构建 的 模型 数量 。 
SAMPLE_SIZE: 此 参数 非 0 时 ,会 提高 内 存 的 效率 。 

STOPPING_TOLERANCE: 此 参数 指定 聚 类 方法 何 时 停止 ,由 此 完成 建立 模型 的 
过 程 。 
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Ester. drm CRTT TUE 


医 控 气 结构 未 控 气 模型 查看 器 “| [ 园 挖 据 准 确 性 图 表 | 柳 控 气 模型 预测 
字 处 理 挖 所 结构 和 所 有 模型 (0)..， 
入 Imput 处 理 模型 (6B)..… 
司 Input 浏览 模型 (W) 
EE 新 建 控 据 模型 (加 
外 I 创举 数据 挖 所 维度 (M),.， 
Input 
司 Input 
悦 Input 
所 Imput 属性 (8) 


6.6 设置 k-means 算法 参数 


筷 开始 时 间 ; 2008-9-19 9:12:32， 结 束 时 间 : 2009-9-18 9:12:33， 持 续 时 间 : 0:00:01 
四 加 对 度量 值 组 "CaseDetal "MG' 的 处 理 已 成 功 完成 。 


6.7 ”k-means 挖掘 模型 处 理 进度 
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(7) 查看 挖掘 结果 。 
再 次 选择 “挖掘 模型 查看 器 ”选项 卡 ,由 vTargetMail 数据 集 得 到 的 k-means 聚 类 结果 
如 图 6. 8 所 示 。 


图 6.8 ”k-means 聚 类 结果 


6.5 层次 聚 类 方法 


层次 聚 类 方法 将 给 定 的 数据 集 按照 自 底 向 上 或 者 自 顶 向 下 的 方式 分 层 进行 处 理 , 形 成 
一 个 树 形 的 聚 类 结构 。 自 底 向 上 的 层次 聚 类 方法 称 为 凝聚 型 层次 聚 类 , 自 顶 向 下 的 层次 聚 
类 方法 称 为 分 解 型 层次 聚 类 。 

层次 聚 类 方法 与 划分 聚 类 方法 不 同 : 划分 聚 类 方法 需要 通过 迭代 过 程 使 评价 聚 类 性 能 
的 准则 函数 达到 最 优 。 层 次 聚 类 方法 不 需要 寻找 最 优 的 聚 类 结果 ,而 是 按照 给 定 的 相似 性 
度量 标准 ,一 种 方式 是 不 断 地 将 最 相似 的 两 个 聚 类 子 集 进行 合并 ,直到 所 有 样本 都 属于 一 个 
类 别 或 者 满足 给 定 的 终止 条 件 ; 另 一 种 方式 是 将 同一 聚 类 子 集中 最 不 相似 的 部 分 分 解 为 两 
个 部 分 ,直到 每 个 样本 单独 构成 一 个 类 别 或 者 满足 给 定 的 终止 条 件 。 


65.1 层次 聚 类 方法 的 基本 概念 


如 上 所 述 , 层 次 聚 类 方法 分 为 凝聚 型 层次 聚 类 和 分 解 型 层次 聚 类 。 凝 聚 型 层次 聚 类 按 
照 自 底 向 上 的 方式 对 数据 集 进行 聚 类 ,初始 时 将 每 个 数据 样本 单独 看 作 一 个 类 别 , 之 后 按照 
某 种 相似 性 度量 标准 逐步 将 数据 样本 进行 合并 ,直到 所 有 的 数据 样本 都 属于 同一 个 类 别 或 
者 满足 终止 条 件 ( 例 如 指定 最 终 的 聚 类 数目 ) 为 止 ; 分 解 型 层次 聚 类 按照 自 顶 向 下 的 方式 对 
数据 集 进 行 聚 类 ,初始 时 将 所 有 的 数据 样本 归 为 一 个 类 别 ,之 后 按照 某 种 相似 性 度量 标准 逐 
步 将 数据 样本 分 解 为 不 同 的 类 别 , 直 到 每 个 数据 样本 单独 构成 一 个 类 别 或 者 满足 终止 条 件 
为 止 。 

不 论 是 凝聚 型 层次 聚 类 还 是 分 解 型 层次 聚 类 ,它们 在 对 数据 集 进 行 处 理 时 如 何 来 表示 
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各 个 聚 类 之 间 的 相似 度 呢 ? 假设 在 某 个 聚 类 层次 上 ,数据 集 X 被 划分 为 c 个 聚 类 子 集 Xi， 


Xs ,… ,Xe ,各 个 聚 类 子 集中 的 样本 数量 分 别 为 mw ,ns,… ,nc。 对 于 聚 类 子 集 X 和 X;(1<i， 
j 生 c) ,最 常用 的 相似 性 度量 有 以 下 4 种 。 
(1) 最 小 距离 。 
dunn (KisKR) = min d(p,p’) (6-10) 
PENip EX 
(2) 最 大 距离 。 
dl Ks Ny se Wd Pp) (6-11) 
(3) 均值 距离 。 
dmean ( Xi, Xj;) = dmism;) (6-12) 
在 公式 (6-12) 中 ,m; 和 mj; 分 别 是 聚 类 子 集 X; 和 XXX; 的 均值 向 量 。 
(4) 平均 距离 。 
9 A 0 (6-13) 


ninj pex, rex, 
在 上 述 4 种 相似 性 度量 中 ,对 于 等 号 右边 的 da(.，. ) ,除了 均值 距离 只 能 处 理 连 续 型 属 
性 之 外 ,其 余 的 三 种 相似 性 度量 可 以 根据 数据 集中 包含 的 描述 属性 的 不 同 ,采用 6. 3 节 中 相 
应 的 距离 度量 。 
在 层次 聚 类 方法 的 两 种 分 类 中 ,凝聚 型 层次 聚 类 比分 解 型 层次 聚 类 更 容易 理解 和 实现 ， 
因此 在 许多 统计 分 析 工 具 的 软件 包 以 及 科研 等 应 用 中 ,凝聚 型 层次 聚 类 更 为 常用 。 下 面 给 
出 凝聚 型 层次 聚 类 的 操作 步骤 ,如 图 6.9 所 示 。 


输入 : 数据 集 久 二 {zx, |m 二 1,2,… ,total) ,其 中 的 数据 样本 只 包含 描述 属性 ,不 包含 类 别 属 
性 ; 聚 类 个 数 上 (给 出 此 条 件 时 , 聚 类 的 数目 达到 人 时 程序 结束 ; 否则 ,所 有 数据 样本 都 属于 
同一 类 时 程序 结束 ) 。 
输出 : 得 到 各 层 聚 类 的 情况 。 
(1) 将 数据 集 X 中 的 每 一 个 数据 样本 单独 看 作 一 个 聚 类 集合 , 则 初始 时 X 中 包含 total 个 

聚 类 集合 Xi ,XX ，,… ,Xm ,其 中 X= 二 zn ,mE1T,I= {ml|m 二 1,2,*… ,total} 。 
(2) 在 集合 {X, 1kE 了 中 找到 一 对 聚 类 集合 X 和 ,使 其 满足 

ACXis Ni) = minA(X,,X.) 


其 中 ,ACXi ,Xi ) 表 示 聚 类 集合 X 和 XX; 之 间 的 相似 性 度量 ,可 以 选择 公式 (6-10) 一 公 
式 (6-13) 中 的 任何 一 种 相似 性 度量 。 
(3) 将 聚 类 集合 X, 入; 进行 合并 ,把 筷 从 集合 {X 1kE 了 中 去 掉 , 并 且 把 i 从 集合 中 去 掉 。 
(4) 重复 步骤 (2) 和 (3) ,直到 所 有 数据 样本 都 属于 同一 个 类 别 或 者 满足 给 定 的 条 件 ( 聚 类 个 
数 所 为 止 。 


图 6.9 凝聚 型 层次 聚 类 的 操作 步 又 


652 层次 聚 类 方法 应 用 举例 


本 节 针 对 6. 5.1 节 中 给 出 的 凝聚 型 层次 聚 类 的 操作 步骤 进行 举例 说 明 。 
【 例 6.2】 根据 表 6. 1 中 给 出 的 数据 集 ,利用 凝聚 型 层次 聚 类 方法 对 其 中 的 数据 样本 
进行 层次 聚 类 。 


第 6 章 数据 聚 
【 解 】 从 表 6.1 可 以 看 出 ,数据 集 包 含 7 个 数据 样本 ,每 个 数据 样本 包含 两 个 分 量 ,每 
个 分 量 都 是 连续 型 取 值 。 也 就 是 说 .数据 集 包含 两 个 连续 型 描述 属性 。 根 据 给 定 的 数据 集 ， 


设 定数 据 样本 之 间 的 距离 采用 欧 氏 距离 , 聚 类 集合 之 间 的 相似 性 度量 采用 最 小 距离 ,采用 凝 
聚 型 层次 聚 类 对 数据 集 进 行 聚 类 ,可 以 得 到 图 6. 10 所 示 的 聚 类 结果 。 


第 7 层 


第 6 层 


第 5 层 


第 4 层 


第 3 层 


第 2 层 


第 ! 层 


图 6.10 凝聚 型 层次 聚 类 示意 图 


如 图 6. 10 中 的 第 1 层 所 示 ,算法 首先 将 每 个 数据 样本 单独 作为 一 个 聚 类 集合 ; 之 后 如 
第 2 层 所 示 ,选择 最 相似 的 两 个 聚 类 集合 进行 合并 ,根据 最 小 距离 相似 度 度量 ,数据 样本 zs 
和 xs 最 相似 ,所 以 将 它们 进行 合并 。 同 理 , 逐 层 向 上 进行 聚 类 ,最 终 所 有 的 数据 样本 都 属于 
同一 个 类 别 , 如 第 3 一 第 7 层 所 示 。 


6.6 小 结 


聚 类 分 析 是 数据 挖掘 应 用 的 主要 技术 之 一 , 它 将 给 定 的 数据 集合 划分 为 多 个 类 别 ,同一 
类 别 的 数据 样本 之 间 具 有 较 高 的 相似 度 , 而 不 同类 别 的 数据 样本 之 间 具 有 和 较 低 的 相似 度 。 

本 章 通过 引 例 介 绍 聚 类 的 基本 概念 ; 从 聚 类 的 应 用 领域 要求 、. 聚 类 算法 的 分 类 等 方面 
对 聚 类 分 析 进 行 了 概述 ; 介绍 了 聚 类 分 析 中 相似 度 的 计算 方法 ,包括 连续 属性 的 相似 度 计 
算 方 法 、 二 值 和 多 值 离散 属性 的 相似 度 计 算 方 法 、 混 合 属性 的 相似 度 计算 方法 ; 从 算法 的 原 
理 、 步 又 等 方面 ,对 聚 类 问题 中 的 经 典 算法 k-means 算法 和 层次 聚 类 算法 进行 了 描述 与 分 
析 : k-means 算法 将 各 个 聚 类 子 集 内 的 所 有 数据 样本 的 均值 作为 该 聚 类 的 代表 点 ,通过 和 迭 
代 过 程 把 数据 集 划 分 为 不 同 的 类 别 , 使 得 每 个 聚 类 类 内 紧凑 ,类 间 独 立 , 本 章 给 出 了 
k-means 算法 的 操作 步骤 .并 且 利 用 SQL Server 2005 中 的 Analysis Services 服务 进行 
k-means 算法 模型 的 建立 和 处 理 , 并 且 以 可 视 化 的 方式 查看 聚 类 结果 ; 层次 聚 类 算法 将 给 
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定数 据 集 分 层 进行 划分 ,形成 一 个 以 各 个 聚 类 为 结 点 的 树 型 结构 ,本章 给 出 了 凝聚 型 层次 聚 
类 算法 的 操作 步骤 ,并 且 给 出 了 实例 。 


6.7 习题 

1. 聚 类 分 析 包 括 和 4 种 类 型 描述 属性 的 相似 
度 计算 方法 。 

2. 连续 型 属性 的 数据 样本 之 间 的 距离 有 和 


3. 划分 聚 类 方法 对 数据 集 进行 聚 类 时 包含 三 个 要 点 : 


4. 层次 聚 类 方法 包括 和 两 种 层次 聚 类 方法 。 

5. 什么 是 聚 类 分 析 ? 聚 类 分 析 的 应 用 领域 有 哪些 ? 

6. 请 描述 k-means 聚 类 算法 的 操作 步骤 。 

7. 参考 6. 4. 2 节 中 的 步骤 ,利用 SQL Server 2005 对 Adventure Works DW 数据 库 中 
的 vTargetMail 数据 集 进 行 k-means 聚 类 ,在 设置 参数 时 将 CLUSTERING_METHOD 设 
置 为 4( 表 示 使 用 k-means 聚 类 算法 ) ,对 于 其 他 参数 ,可 以 设置 一 些 不 同 的 值 ,并 且 观 察 不 
同 参 数 取 值 对 应 的 聚 类 结果 有 何 区 别 。 

8. 请 描述 凝聚 型 层次 聚 类 算法 的 操作 步骤 。 
9. 利用 凝聚 型 层次 聚 类 算法 对 表 6. 5 所 示 的 数据 集 进行 聚 类 。 


表 6.5 采用 层次 聚 类 的 数据 集 描 述 


样本 序号 描述 属性 1 描述 属性 2 
Xl 6 4 


从 
Wa 


贝 叶 斯 网 络 第 7 章 


贝 叶 斯 网 络 是 20 世纪 80 年 代 发 展 起 来 的 ,最 早 由 Judea Pearl 于 1986 
年 提出 ,多 用 于 专家 系统 ,成 为 表示 不 确定 性 知识 和 推理 问题 的 流行 方法 。 
贝 叶 斯 网 络 最 早起 源 于 贝 叶 斯 统计 分 析 , 它 是 概率 理论 和 图 论 相 结合 的 
产物 。 

本 章 通 过 引 例 讨论 贝 叶 斯 网 络 需 要 解决 的 问题 ; 介绍 贝 叶 斯 概率 基础 ; 
对 贝 叶 斯 网 络 进行 概述 ; 讲解 贝 叶 斯 网 络 的 预测 ,诊断 和 训练 算法 ; 讲述 
SQL Server 2005 中 贝 叶 斯 网 络 的 应 用 方法 。 


7.1 引 例 


先 看 一 个 关于 概率 推理 的 例子 。 图 7.1 中 有 6 个 结 点 : 参加 晚会 
(party, PT)、 宿 醉 (hangover, HO)、 患 脑 瘤 (brain tumor, BT)、 头 疼 
(headache, HA)、 有 酒精 味 (smell alcohol, SA) 和 X 射线 检查 呈 阳 性 (pos 
xray, PX)。 可 以 把 图 7. 1 想象 成 为 这 样 一 个 场景 : 一 个 中 学 生 回 家 后 ,其 父 
母 猜测 她 参加 了 晚会 .并且 喝 了 酒 ; 第 二 天 这 个 学 生 感 到 头疼 ,她 的 父母 带 她 
到 医院 做 头 部 的 X 光 检查 …… 


smell alcohol 


图 7.1 基于 结 点 间 概 率 关系 的 推理 
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通过 长 期 的 观察 ,或 者 从 别人 那里 了 解 , 这 个 中 学 生 的 父母 知道 他 们 的 女儿 参加 晚会 的 
概率 。 通 过 长 时 间 的 数据 积累 ,他 们 也 知道 他 们 的 女儿 参加 晚会 后 宿 醇 的 概率 。 因 此 , 结 点 
party 和 结 点 hangover 之 间 有 一 条 连 线 。 同 样 ,有 明显 的 因果 关系 或 相关 关系 的 结 点 之 间 
都 有 一 条 连 线 , 并 且 连 线 从 原因 结 点 出 发 ,指向 结果 结 点 。 

针对 图 7. 1 所 示 的 网 络 , 有 许多 问题 需要 解决 。 例 如 ,如 果 父 母 已 知 他 们 的 女儿 参加 了 
晚会 ,那么 第 二 天 一 早 , 她 呼出 的 气体 中 有 酒精 味 的 概率 有 多 大 ? 也 就 是 说 , 当 party 发 生 
时 ,smell alcohol 发 生 的 概率 有 多 大 ? 又 例如 ,如 果 他 们 的 女儿 头疼 ,那么 她 患 脑 瘤 的 概率 
有 多 大 ? 这 时 ,如 果 他 们 又 知道 昨 晚 她 参加 了 晚会 ,那么 综合 这 些 情 况 , 她 患 脑 瘤 的 可 能 性 
有 多 大 ? 这 两 个 例子 都 是 从 原因 推理 结果 的 。 还 有 许多 从 结果 反 推 原因 的 例子 。 例 如 ,如 
果 父 母 早 晨 闻 到 他 们 的 女儿 呼出 的 气体 中 有 酒精 味 , 那 么 她 昨 晚 参加 晚会 的 概率 有 多 大 ? 


为 了 系统 地 解决 上 面 的 各 类 问题 ,需要 先 掌握 一 定 的 概率 基础 知识 。 


7.2 贝 叶 斯 概率 基础 


贝 叶 斯 概率 是 贝 叶 斯 网 络 运行 的 理论 基础 。 就 贝 叶 斯 概率 而 言 , 其 原理 和 应 用 都 比较 
简单 。 但 贝 叶 斯 概率 理论 经 历 了 长 时 间 的 波折 才 被 逐渐 认可 ,直到 20 世纪 60 年 代 , 贝 叶 斯 
概率 理论 才 被 广泛 接受 并 大 量 应 用 。 这 一 部 分 中 ,将 从 基本 的 条 件 概率 公式 和 全 概率 公式 
入 手 介绍 贝 叶 斯 概率 。 


721 先 验 概率 、 后 验 概率 和 条 件 概率 


下 面 介绍 贝 叶 斯 概率 中 用 到 的 有 关 概 率 论 的 基本 概念 。 

(1) 先 验 概率 。 先 验 概率 是 指 根据 历史 的 资料 或 主观 判断 所 确定 的 各 种 事件 发 生 的 概 
率 , 该 概率 没有 经 过 实验 证 实 , 属 于 检验 前 的 概率 。 

(2) 后 验 概率 。 后 验 概率 一 般 是 指 通过 贝 叶 斯 公式 ,结合 调查 等 方式 获取 了 新 的 附加 
信息 ,对 先 验 概 率 修 正 后 得 到 的 更 符合 实际 的 概率 。 

(3) 条 件 概率 。 当 条 件 确定 时 , 某 事件 发 生 的 条 件 概率 就 是 该 事件 的 条 件 概率 。 


722 条 件 概率 公式 


若 (2,F,P) 是 一 个 概率 空间 .BEE, 若 P(B) 二 0, 则 对 于 任意 的 AE 开 , 称 


_ P(AB) _ 
P(A 1B) = 天 全 (7-1) 

为 已 知事 件 B 发 生 的 条 件 下 ,事件 A 发 生 的 条 件 概率 。 

由 
P(AB) = P(BA) = P(A | B)P(B) = P(B | A)P(A) (7-2) 
可 以 得 到 
_ P(B | A)P(A) 人 

P(A|B)= BI (7-3) 


例如 ,已 知 任何 时 刻 阴 天 的 概率 为 0.3, 记 为 P(A) 一 0.3, 下 雨 的 概率 为 0.2, 记 为 
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了 P(B) 二 0.2。 阴 天 之 后 3 小 时 之 内 下 雨 的 概率 为 0. 6, 记 为 条 件 概 率 P(B1A) 一 0.6。 那 么 
在 下 雨 的 条 件 下 ,3 小 时 前 是 阴 天 的 概率 是 多 少 呢 ? 根据 条 件 概率 公式 ,得 


P(B|A)P(A) 0.3X0.6 
P(B) 0.2 


即 如 果 下 两,3 小 时 前 是 阴 天 的 概率 为 0.9。 
723 全 概率 公式 


设 A,B 是 两 个 事件 ,那么 A 可 以 表示 为 
A=ABUAB (7-4) 
显然 ,AB 门 AB==$, 如 果 P(B),P(GB) 二 0, 则 
P(A) = P(AB)+ P(AB) = P(A | B)P(B)+ P(A | B)P(B) (7-5) 
例如 ,1 号 箱 中 有 2 个 白 球 和 4 个 红 球 ,2 号 箱 中 有 5 个 白 球 和 3 个 红 球 , 现 随机 地 从 1 
号 箱 中 取出 一 球 放 入 2 号 箱 , 然 后 从 2 号 箱 随 机 取出 一 球 , 问 从 2 号 箱 取出 红 球 的 概率 是 
多 少 ? 
【 解 】 令 A 表示 事件 “最 后 从 2 号 箱 中 取出 的 是 红 球 ”; 令 B 表示 从 1 号 箱 中 取出 的 是 
红 球 。 则 


P(A TB) 


0.9 


1 


PCOB) ， P(B)=1—P(B)= 3 


4 
2 十 


p eg =_3_ 1 
pew lpi es = A 


由 式 (7-5) 
P(A) = P(AB)+ P(AB) 
= P(A | B)P(B)+ P(A | B)P(B) 


2 1 3 11 
3 9 8X9 27 


上 例 采用 的 方法 是 概率 论 中 常用 的 方法 ,为 了 求 复杂 事件 的 概率 ,往往 可 以 把 它 分 解 成 
若干 个 互 不 相 容 的 简单 事件 ,然后 利用 条 件 概 率 和 乘法 公式 , 求 出 这 些 简单 事件 的 概率 ,最 
后 利用 概率 可 加 性 ,得 到 最 终结 果 , 这 一 方法 的 一 般 化 就 是 所 谓 的 全 概率 公式 。 

设 0 为 试验 E 的 样本 空间 ,A 为 E 的 事件 .Bi.B,.…,B, 为 E 的 一 组 事件 , 若 满 足以 
下 两 个 条 件 : 

(1) BMNB,;=$,iAj,i,j=1,2,.% ,nn 

(2) B1UB,U:…UB,=0 
则 称 Bi ,Bs,…,B, 为 样本 空间 2 的 一 个 分 割 。 

若 Bi ,B:,…',B, 为 样本 空间 的 一 个 分 割 ,那么 ,对 每 一 次 试验 ,事件 B, ,B,,…,B, 必 有 
一 个 且 仅 有 一 个 发 生 。 

例如 , 设 实验 E 为 “ 掷 一 颗 货 子 观 察 其 点 数 ”。 它 的 样本 空间 2 一 (1.2.3,4,5,6}。2 的 

组 事件 B, 一 (1,2),B: 一 (3,4},B: 一 {5,6} 是 样本 空间 2 的 一 个 分 割 。 而 事件 组 B; 一 (1， 
2,3},B: 一 {3,4},B: 一 人 45,6} 不 是 样本 空间 2 的 一 个 分 割 ,因为 B1B, 一 {3} 关 $。 

设 实验 巨 为 样本 空间 ,A 为 E 的 事件 ,Bi,B,,…,B, 为 0 的 一 个 分 割 , 且 P(CB,) 二 0， 

i 二 1,2,…,n, 则 
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P(A)= >)PCB,)P(CA 1B) (T=6 
i=1 


式 (7-6) 被 称 为 全 概率 公式 。 
例如 ,甲乙 、 丙 三 人 向 同一 飞机 射击 。 设 甲乙 、 丙 射 中 的 概率 分 别 为 0.4,0.5 和 0.7。 
又 设 若 只 有 一 人 射 中 ,飞机 坠落 的 概率 为 0.2; 车 有 两 人 射 中 ,飞机 坠落 的 概率 为 0.6; 车 有 
三 人 射 中 ,飞机 必 险 落 。 求 飞机 坠落 的 概率 。 
【 解 】 记 A={ 飞 机 坠落 },B; 一 { 共 i 个 人 射 中 飞机 } ,i 一 1,2,3。 其 实 B; 为 
Bi 一 ( 甲 射 中 , 乙 丙 未 射 中 ) 十 ( 乙 射 中 , 甲 丙 未 射 中 ) 十 ( 丙 射 中 .甲乙 未 射 中 ) 
Bs 一 ( 甲 未 射 中 , 乙 丙 射 中 ) 十 (乙未 射 中 , 甲 丙 射 中 ) 十 ( 丙 未 射 中 ,甲乙 射 中 ) 
Bs 二 (甲乙 再 均 射 中 ) 
可 以 计算 i 个 人 射 中 飞机 的 概率 
P(Bi) = 0.4X0.5X0.3++0.6X0.5xXx0.3+0.6X0.5x0.7= 0.36 
P(B:) 一 0.6X0.5X0.7 十 0.4X0.5X0.7 十 0.4X0.5X0.3 一 0.41 
PB = 005X07 一 个 
再 由 题 设 ,P(A1B,)=0.2,P(A1B:)=0.6,P(A1B:) 王 1。 利 用 全 概率 公式 


3 
P(A) = >) P(B)P(A |B;) = 0.36X0.2+0.41X0.6+0.14X1= 0.458 
ie1 


724 贝 叶 斯 公式 


设 实验 巨 为 样本 空间 ,A 为 E 的 事件 ,Bi.,B;,…,B, 为 的 一 个 分 割 , 且 P(CB,) 二 0， 
1 一 1,2, 72, 则 
P(B)P(A | Bi) 


>)P(CB)P(CA | Bi) 
i=1 


P(B;|A)= (7-7) 


式 (7-7) 被 称 为 贝 叶 斯 公式 。 

例如 , 某 电 子 设备 厂 所 用 的 元 件 是 由 三 家 元 件 厂 提供 的 ,根据 以 往 的 记录 ,这 三 个 厂家 
的 次 品 率 分 别 为 0.02,0.01,0.03, 提 供 元 件 的 份额 分 别 为 0.15,0.8,0.05, 设 这 三 个 厂家 的 
产品 在 仓库 是 均匀 混合 的 , 且 无 区 别 的 标志 。 

问题 1: 在 仓库 中 随机 地 取 一 个 元 件 , 求 它 是 次 品 的 概率 。 

问题 2: 在 仓库 中 随机 地 取 一 个 元 件 , 若 已 知 它 是 次 品 ,为 分 析 此 次 品 出 自 何 厂 , 需 求 出 
此 元 件 由 三 个 厂家 生产 的 概率 是 多 少 ? 

【 解 】 设 A 取 到 的 元 件 是 次 品 ,B; 表示 取 到 的 元 件 是 由 第 ; 个 厂家 生产 的 , 则 

P(BI) = 0, 15yP(B;) 三 0.8,P(BS 三 0.05 
对 于 问题 1, 由 全 概率 公式 


3 
P(A)= >) P(B)P(A | B,) 
i=1 


二 0.15X0.02 十 0.80X0.01 十 0.05 Xx 0.03 
一 0.0125 
对 于 问题 2, 由 贝 叶 斯 公式 
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P(CB)P(CA1B) 0.15X0.02 


POB la P(A) 0.0125 We 
P(B:)P(A|B:) 0.80X0.01 

(Be | 4) P(A) 0.0125 
P(Bi)P(A | Bi) 0.05X0.03 

P(B; | A) Poy 0 Ol 0.12 


以 上 结果 表明 ,这 个 次 品 来 自 第 2 家 工厂 的 可 能 性 最 大 ,来 自 第 1 家 工厂 的 概率 次 之 ， 
来 自 第 3 家 工厂 的 概率 最 小 。 


7.3 贝 叶 斯 网 络 概述 


贝 叶 斯 网 络 作为 图 形 模型 (概率 理论 和 图 论 相 结合 的 产物 ) 的 一 种 ,具有 图 形 模型 的 大 
多 数 性 质 , 它 已 经 成 为 数据 库 中 的 知识 发 现 和 决策 支持 系统 的 有 效 方法 。20 世纪 90 年 代 
中 后 期 ,出 现 了 大 量 贝 叶 斯 网 络 学 习 算法 ,致力 于 从 大 量 数据 中 构造 贝 叶 斯 网 络 模型 ,进行 
不 确定 性 知识 的 发 现 。 


73.1 贝 叶 斯 网 络 的 组 成 和 结构 


贝 叶 斯 网 络 又 被 称 为 信念 网 络 .因果 网 络 等 ,是 描述 随机 变量 (事件 ) 之 间 依 赖 关 系 的 一 
种 图 形 模式 ,是 一 种 用 来 进行 推理 的 模型 。 贝 叶 斯 网 络 通过 有 向 图 的 形式 来 表示 随机 变量 
间 的 因果 关系 ,并 通过 条 件 概率 将 这 种 关系 数量 化 ,可 以 包含 随机 变量 集 的 联合 概率 分 布 ， 
是 一 种 将 因果 知识 和 概率 知识 相 结合 的 信息 表示 框架 ,使 得 不 确定 性 推理 在 多 辑 上 变 得 更 
为 清晰 ,理解 性 更 强 。 

贝 叶 斯 网 络 由 网 络 结构 和 条 件 概 率 表 两 部 分 组 成 。 贝 叶 斯 网 的 网 络 结构 是 一 个 有 向 无 
环 图 ,由 结 点 和 有 向 弧 段 组 成 。 每 个 结 点 代表 一 个 事件 或 者 随机 变量 ,变量 值 可 以 是 离散 的 
或 连续 的 , 结 点 的 取 值 是 完备 互 斥 的 。 表 示 起 因 的 假设 和 表示 结果 的 数据 均 用 结 点 表示 。 
在 概率 推理 中 ,随机 变量 用 于 代表 世界 上 的 事物 或 者 事件 .可 以 是 任何 问题 的 抽象 ,通过 将 
这 些 随机 变量 实例 化 成 各 种 实例 ,就 可 以 对 世界 上 现存 的 状态 进行 建 模 。 结 点 间 的 有 向 弧 
段 代表 随机 变量 间 的 因果 关系 或 概率 依赖 关系 ,可 以 通过 在 各 变量 之 间 利 用 弧 段 画 出 它们 
的 因果 关系 , 弧 段 是 有 向 的 ,不 构成 回路 。 

例如 ,图 7. 1 描述 的 网 络 符合 贝 叶 斯 网 络 的 条 件 ,是 一 个 典型 的 贝 叶 斯 网 络 。 


732 贝 叶 斯 网 络 的 优越 性 


贝 叶 斯 网 络 自然 地 将 先 验 知识 与 概率 推理 相 结合 ,从 而 贴近 现实 问题 ,并 用 图 表 模 型 的 
形式 描述 数据 之 间 的 相互 关系 .非常 便于 预测 分 析 . 有 助 于 优化 人 们 的 决策 。 贝 叶 斯 网 络 的 
优势 主要 体现 在 以 下 方面 。 

(1) 贝 叶 斯 网 络 推理 是 利用 其 表达 的 条 件 独立 性 ,根据 已 有 信息 快速 计算 待 求 概率 值 
的 过 程 。 应 用 贝 叶 斯 网 络 的 概率 推理 算法 ,对 已 有 的 信息 要 求 低 , 可 以 进行 信息 不 完全 ,不 
确定 情况 下 的 推理 。 

(2) 具有 良好 的 可 理解 性 和 逻辑 性 ,这 是 神经 元 网 络 无 法 比拟 的 ,神经 元 网 络 从 输入 层 
输入 影响 因素 信息 ,经 隐 含 层 处 理 后 传人 输出 层 , 是 黑匣子 似 的 预测 和 评估 ,而 贝 叶 斯 网 络 
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是 白 匣子 。 

(3) 专家 知识 和 试验 数据 的 有 效 结合 相辅相成 ,忽略 次 要 联系 而 突出 主要 矛盾 ,可 以 有 
效 避 免 过 学 习 。 

(4) 贝 叶 斯 网 络 以 概率 推理 为 基础 ,推理 结果 说 服 力 强 ,而 且 相 对 贝 叶 斯 方法 来 说 , 贝 
叶 斯 网 络 对 先 验 概率 的 要 求 大 大 降低 。 贝 叶 斯 网 络 通过 实践 积累 可 以 随时 进行 学 习 来 改进 
网 络 结 构 和 参数 ,提高 预测 诊断 能 力 , 并 且 基 于 网 络 的 概率 推理 算法 , 贝 叶 斯 网 络 接受 了 新 
信息 后 立即 更 新 网 络 中 的 概率 信息 。 


733 贝 叶 斯 网 络 的 三 个 主要 议题 


贝 叶 斯 网 络 的 主要 功能 是 进行 预测 和 诊断 ,在 贝 叶 斯 网 络 工作 之 前 ,需要 对 历史 数据 进 
行 训 练 。 所 以 ,预测 .诊断 和 训练 构成 了 贝 叶 斯 网 络 的 三 个 主要 议题 。 


1. 贝 叶 斯 网 络 预测 


贝 叶 斯 网 络 是 一 种 概率 推理 技术 ,使 用 概率 理论 来 处 理 在 描述 不 同 知识 成 分 之 间 的 条 
件 而 产生 的 不 确定 性 。 贝 叶 斯 网 络 的 预测 是 指 从 起 因 推 测 一 个 结果 的 推理 ,也 称 为 由 项 向 
下 的 推理 。 目 的 是 由 原因 推导 出 结果 。 已 知 一 定 的 原因 (证 据 ), 利 用 贝 叶 斯 网 络 的 推理 计 
算 , 求 出 由 原因 导致 的 结果 发 生 的 概率 。 


2. 贝 叶 斯 网 络 诊断 


贝 叶 斯 网 络 的 诊断 是 指 从 结果 推测 一 个 起 因 的 推理 ,也 称 为 由 底 至 上 的 推理 。 目 的 是 
在 已 知 结果 时 , 找 出 产生 该 结果 的 原因 。 已 知 发 生 了 某 些 结果 ,根据 贝 叶 斯 网 络 推理 计算 造 
成 该 结果 发 生 的 原因 和 发 生 的 概率 。 该 诊断 功能 多 用 于 病理 诊断 ,故障 诊断 中 ,目的 是 找到 
疾病 发 生 ,故障 发 生 的 原因 。 


3. 贝 叶 斯 网 络 学 习 


贝 叶 斯 网 络 学习 是 指 由 先 验 的 贝 叶 斯 网 络 得 到 后 验 的 贝 叶 斯 网 络 的 过 程 。 先 验 贝 叶 斯 
网 络 是 根据 用 户 的 先 验 知识 构造 的 贝 叶 斯 网 络 ,后 验 贝 叶 斯 网 络 是 把 先 验 贝 叶 斯 网 络 和 数 
据 相 结合 而 得 到 的 贝 叶 斯 网 络 。 

贝 叶 斯 网 络 学 习 的 实质 是 用 现 有 数据 对 先 验 知识 的 修正 。 贝 叶 斯 网 络 能 够 持续 学 习 ， 
上 次 学 习 得 到 的 后 验 贝 叶 斯 网 络 变 成 下 一 次 学 习 的 先 验 贝 叶 斯 网 络 , 每 一 次 学 习 前 用 户 都 
可 以 对 先 验 贝 叶 斯 网 络 进行 调整 ,使 得 新 的 贝 叶 斯 网 络 更 能 体现 数据 中 蕴涵 的 知识 。 贝 叶 
斯 网 络 的 学 习 关系 如 图 7. 2 所 示 。 

+ 修正 


先 验 证 贝 / 
叶 斯 网 络 叶 斯 网 络 


+ 数据 
图 7.2 贝 叶 斯 网 络 持续 学 习 
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贝 叶 斯 网 络 模型 是 由 网 络 结构 和 条 件 概 率 分 布 表 (Conditional Probability Table， 
CPT) 组 成 的 ,因此 ,必须 通过 给 出 贝 叶 斯 网 络 的 网 络 结构 及 每 个 结 点 上 的 CPT 表 来 描述 一 
个 贝 叶 斯 网 络 。 相 应 地 ,基于 贝 叶 斯 网 络 的 学 习 包 括 结构 学 习 和 参数 学 习 两 个 内 容 。 结 构 
学 习 , 即 利用 训练 样本 集 , 尽 可 能 结合 先 验 知识 ,确定 最 合适 的 贝 叶 斯 网 络 模型 结构 。 参 数 
学 习 是 在 给 定 结构 下 ,确定 贝 叶 斯 网 络 模型 的 参数 , 即 每 个 结 点 上 的 CPT 表 。 

根据 样本 数据 的 不 同性 质 , 每 一 部 分 均 包括 实例 数据 完备 ,实例 数 据 不 完备 两 个 方面 。 
如 果 对 应 于 贝 叶 斯 网 络 中 每 个 结 点 所 代表 的 随机 变量 ,训练 样本 集 的 每 一 个 成 员 中 都 存在 
一 个 确定 的 值 与 之 相对 应 ,那么 说 这 个 训练 样本 集 是 完整 的 。 反 之 ,我 们 说 训练 样本 集 是 不 
完整 的 。 按 照 学 习 的 目的 以 及 训练 样本 集 是 否 完 整 ,可 以 把 学 习 方 法 归 为 以 下 几 类 ,如 
表 7.1 所 示 。 


表 7.1 贝 叶 斯 网 络 学 习 算法 分 类 表 


网 络 结构 训练 样本 集 学 习 方 法 
已 知 完整 最 大 似 然 估 计 , 条 件 期 望 估计 
已 知 不 完整 EM 算法 ,顺序 更 新 算法 ,MCMC 
未 知 完整 搜索 算法 
未 知 不 完整 EM 算法 ,搜索 算法 


7.4 贝 叶 斯 网 络 的 预测 .诊断 和 训练 算法 


本 节 将 从 图 7.1 所 示 的 简单 贝 叶 斯 网 络 的 例子 入 手 ,分别 介 绍 贝 叶 斯 网 络 的 预测 ,诊断 
和 训练 算法 。 首 先 ,假定 网 络 中 的 概率 和 条 件 概率 都 已 经 知道 ,也 就 是 说 网 络 已 经 训练 完 
毕 ,或 者 按照 专家 经 验 , 网 络 中 缺少 的 概率 数据 或 条 件 概率 数据 都 已 经 具备 。 首 先 ,我 们 给 
出 这 些 数据 。 


741 概率 和 条 件 概 率 数 据 


图 7.1 中 的 Party 和 Brain Tumor 两 个 结 点 是 原因 结 点 ,没有 连 线 以 它们 作为 终点 。 
首先 给 出 这 两 个 结 点 的 无 条 件 概 率 ,如 表 7.2 所 示 。 


表 7.2 结 点 PT.BT 的 无 条 件 概率 分 布 


PA P(BT) 
True 0.200 0.001 
False 0. 800 0. 999 


表 7.2 中 的 第 二 列 是 关于 Party( 参 加 晚会 ) 的 概率 : 参加 晚会 的 概率 是 0. 2, 不 参加 晚 
会 的 概率 是 0.8。 第 三 列 是 关于 患 脑 瘤 的 概率 : 患 脑 瘤 的 概率 是 0. 001, 不 患 脑 瘤 的 概率 是 
0.999。 

下 面 还 将 给 出 几 组 条 件 概 率 , 分 别 是 PT 已 知 的 情况 下 HO 的 条 件 概 率 ,如 表 7. 3 所 
示 ; HO 已 知 的 情况 下 SA 的 条 件 概率 ,如 表 7.4 所 示 ; BT 已 知 的 情况 下 PX 的 概率 ,如 
表 7.5 所 示 。 
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表 7.3 已 知 结 点 PT 时 HO 的 条 件 概率 
PCHOIPT) PT=True PT= False 
True 0.700 0 
False 0.300 1.000 
表 7.4 已 知 结 点 HO 时 SA 的 条 件 概率 
P(SA| HO) HO= True HO= False 
True 0. 800 0.100 
False 0.200 0.900 
表 7.5 已 知 结 点 BT 时 PX 的 条 件 概率 
PCPXIBT) BT 一 True BT= False 
True 0.980 0.010 
False 0.020 0.990 
上 面 三 个 表 的 结构 相似 ,给 出 的 都 是 条 件 概 率 。 表 7. 3 中 第 2 列 的 意思 是 : 当 参 加 晚 
会 后 , 宿 醉 的 概率 是 0.7; 不 宿 醇 的 概率 是 0.3。 第 3 列 的 意思 是 : 当 不 参加 晚会 后 ,不 会 发 
生 宿 醇 的 情况 。 对 表 7.4 和 表 7. 5 的 解释 类 似 。 


最 后 给 出 的 是 一 个 联合 条 件 概率 : 已 知 HO 和 BT 时 HA 的 概率 ,如 表 7.6 所 示 。 


表 7.6 已 知 HO 和 BT 时 HA 的 概率 


HO= True HO= False 
P(HA|HO.PT) 
BT= True BT 一 False BT 一 True BT 一 False 
True 0. 990 0.700 0. 900 0.020 
False 0.010 0. 300 0. 100 0. 980 


表 7.6 中 数据 的 意义 是 : 当 宿 醇 发 生 和 有 脑 瘤 的 情况 下 ,头疼 的 概率 是 0. 99 ,不 头疼 的 
概率 是 0. 01。 当 宿 醇 发 生 但 没有 脑 瘤 的 情况 下 ,头疼 的 概率 是 0. 7, 不 头疼 的 概率 是 0. 3。 
当 没 有 宿 醇 但 患 有 脑 瘤 的 情况 下 ,头疼 的 概率 是 0.9 ,不 头疼 的 概率 是 0.01。 在 具备 概率 数 
据 和 条 件 概 率 数据 后 ,7. 4. 2 节 通 过 例子 介绍 贝 叶 斯 网 络 的 预测 算法 。 


7.42 


贝 叶 斯 网 络 的 预测 算法 


贝 叶 斯 网 络 的 功能 之 一 就 是 在 已 知 某 些 条 件 结 点 的 情况 下 ,预测 结果 结 点 的 概率 。 当 
然 , 贝 叶 斯 网 络 也 可 以 在 不 知 任何 结 点 信息 的 情况 下 计算 某 个 结果 结 点 的 发 生 概率 。 例 如 ， 
在 图 7. 1 中 ,如 果 不 知道 任何 结 点 发 生 与 否 的 信息 .仍然 可 以 估算 结 点 HA 的 概率 。 

为 了 方便 ,约定 : 对 于 一 个 结 点 Point,P( 十 Point) 表 示 Point 发 生 的 概率 ,P( 一 Point) 


表示 不 发 生 的 概率 。 
【 例 7.11 


下 面 计算 结 点 HA 的 概率 。 
根据 全 概率 公式 ,有 


P(+ HA)= P(+ BT)P(+ HO) x 0.99+ P(+ BT)P(— HO) x 0.9+P(— BT)P(+ HO) 
xXx0.7+ P(— BT)P(— HO) x 0.02 


一 0.116 
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P(— HA)= 1—P(+ HA) = 0. 884 

也 就 是 说 ,在 没有 任何 结 点 信息 ( 称 为 证 据 ) 的 情况 下 ,头疼 的 概率 是 0.116, 不 头疼 的 
概率 是 0. 884。 

用 同样 的 方式 ,可 以 计算 所 有 结 点 的 概率 ,这 样 可 以 使 得 图 7. 1 所 示 的 网 络 进一步 完 
善 。 事实 上 ,完善 结 点 概率 也 是 预测 贝 叶 斯 网 络 预测 的 一 种 情况 , 即 在 不 知 结 点 明确 信息 
(证 据 ) 情 况 下 的 预测 。 

下 面 进行 一 个 原因 结 点 明确 情况 下 的 预测 。 

【 例 7.2】 计算 已 知 参加 晚会 的 情况 下 ,第 二 天 早晨 呼吸 有 酒精 味 的 概率 。 

首先 ,由 表 7. 3 可 以 看 出 , 当 PT 发 生 时 ,HO 发生 的 概率 是 0.7。 也 就 是 说 , 当 参 加 晚 
会 后 , 宿 醇 发 生 的 概率 是 0.7, 不 发 生 的 概率 是 0. 3。 由 全 概率 公式 

P(+SA)= P(+ HO)P(+SA |+ HO)+P(— HO)P(+ SA |— HO) 
一 0.7XX0.8 十 0.3X0.1 
一 0.59 

【 例 7.3】 计算 已 知 参加 晚会 的 情况 下 ,头疼 发 生 的 概率 。 

由 表 7. 3 可 知 , 当 PT 发 生 时 , HO 发 生 的 概率 是 0.7, 不 发 生 的 概率 是 0.3; 由 表 7. 2 
可 以 看 出 ,BT 发 生 的 概率 是 0. 001 ,不 发 生 的 概率 是 0.999。 已 知 HO 和 BT 后 ,根据 全 概 
率 公 式 , 得 到 

P(+ HA)= P(+ HO)P(+ BT)P(+ HA |+ HO+ BT)+P(+ HO)P(— BT) 

x0.7+P(— HO)P(+BT) XxX0.9+ P(— HO)P(— BT) x 0.02 
= 0. 496 467 

P(— HA)= 1—P(+ HA) = 0.503 533 

也 就 是 说 ,如 果 知 道 已 经 参加 了 晚会 ,而 没有 其 他 方面 的 任何 证 据 , 则 这 个 人 头疼 的 概 
率 是 0. 496 ,不 头疼 的 概率 是 0. 504。 

读者 可 以 比较 分 析 例 7. 1 和 例 7. 3 的 结果 : 由 于 参加 晚会 ,头疼 发 生 的 概率 大 大 增 
加 了 。 

结合 上 面 给 出 的 三 个 例子 .下面 给 出 贝 叶 斯 网 络 预测 算法 的 步骤 描述 。 如 图 7. 3 所 示 。 


输入 : 给 定 贝 叶 斯 网 络 B( 包 括 网 络 结构 m 个 结 点 以 及 某 些 结 点 间 的 连 线 、 原 因 结 点 到 中 间 结 点 

的 条 件 概率 或 联合 条 件 概率 ) ,给 定 若干 个 原因 结 点 发 生 与 否 的 事实 向 量 F( 或 者 称 为 证 据 向 量 )， 

给 定 待 预测 的 某 个 结 点 t。 

输出 : 结 点 上 发 生 的 概率 。 

(1) 把 证 据 向 量 输入 到 贝 叶 斯 网 络 B 中 。 

(2) 对 于 B 中 的 每 一 个 没 处 理 过 的 结 点 n, 如 果 它 具有 发 生 的 事实 (证 据 ), 则 标记 它 为 已 经 处 理 
过 ; 否则 继续 下 面 的 步骤 。 

(3) 如 果 它 的 所 有 父 结 点 中 有 一 个 没有 处 理 过 , 则 不 处 理 这 个 结 点 ; 否则 ,继续 下 面 的 步骤 。 

(4) 根据 结 点 的 所 有 父 结 点 的 概率 以 及 条 件 概率 或 联合 条 件 概 率 计算 结 点 的 概率 分 布 ,并 把 


结 点 标记 为 已 处 理 。 
(5) 重复 步骤 (2) 一 (4), 共 m 次 。 此 时 , 结 点 t 的 概率 分 布 就 是 它 的 发 生 /不 发 生 的 概率 。 算 法 
结束 。 


需要 注意 的 是 ,第 (5) 步 的 作用 是 使 得 每 个 结 点 都 有 被 计算 概率 分 布 的 机 会 。 
7.3 贝 叶 斯 网 络 预测 算法 的 操作 步骤 
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74.3 贝 叶 斯 网 络 的 诊断 算法 


上 一 部 分 在 已 知 条 件 结 点 发 生 与 否 的 情况 下 ,推断 了 结果 结 点 发 生 的 概率 。 这 一 部 分 
将 做 相反 方向 的 工作 : 在 已 知 结果 结 点 发 生 与 否 的 情况 下 推断 条 件 结 点 发 生 的 概率 。 
【 例 7.4】 计算 已 知 X 光 检 查 呈 阳性 的 情况 下 , 患 脑 瘤 的 概率 。 
根据 条 件 概率 公式 
P(+BT |+PX)= P(+PX |+BT) x P(+ BT)/P(+ PX) 
= 0. 98 X 0.001/0.011 
一 0.089 09 
P( 一 BT |+PX)=1—P(+BT | 十 PX) = 0.911 
也 就 是 说 , 当 X 光 检 查 呈 阳性 的 情况 下 , 患 脑 瘤 的 概率 是 0. 089, 不 患 脑 瘤 的 概率 是 
0.911。 
上 面 的 例子 比较 简单 ,可 以 直接 用 条 件 概率 公式 计算 获得 。 下面 再 看 一 个 比较 复杂 的 
例子 。 
【 例 7.5】 计算 已 知 头疼 的 情况 下 , 患 脑 瘤 的 概率 。 
首先 ,根据 表 7.6 给 出 的 联合 条 件 分 布 计算 已 知 BT 情况 下 HA 的 边缘 条 件 概率 。 为 
此 ,要 首先 计算 结 点 HO 的 概率 分 布 。 根 据 全 概率 公式 
P(+ HO)= P(+ HO |+PT) XxPC+PT) 十 PC+HO | 一 PT) x P(— PT) 
一 0.7X0.2 十 0 
= 0.14 
上 面 的 计算 表明 ,没有 任何 证 据 的 情况 下 , 宿 醉 发 生 的 概率 是 0. 14, 不 发 生 的 概率 是 
0.86。 通 过 宿 醇 的 发 生 概 率 ,可 以 计算 已 知 BT 情况 下 HA 的 边缘 条 件 概率 
P(+ HA |+BT)= P(+ HO) x P(+ HA |+BT, + HO) 
+P(— HO) x P(+ HO |+ BT, — HO) 
一 0.14X0.99 十 0.86X0.9 
= 0.9126 
P(— HA |+BT)= 1—P(+ HA | 十 BT) 一 0.087 
上 面 的 计算 得 到 了 已 知 患 脑 瘤 的 情况 下 头疼 的 概率 是 0. 913 ,不 头疼 的 概率 是 0. 087。 
这 个 条 件 概 率 是 一 个 边缘 分 布 , 它 是 从 联合 条 件 概率 分 布 (HO, BT 一 HA) 去 掉 一 个 条 件 
HO 得 到 的 。 我 们 把 这 个 边缘 分 布 的 内 容 整 理 在 表 7.7 中 。 


表 7.7 已 知 BT 情况 下 HO 的 (边缘 ) 条 件 概率 


PCHAIBT) BT 一 True BT 一 False 
True 0. 913 0. 115 
False 0.087 0.885 


最 后 ,根据 表 7.7 提供 的 条 件 概率 ,利用 条 件 概率 公式 ,可 得 
P(+BT |+ HA)= P(+ HA |+BT) x P(+BT)/P(+ HA) 
= 0.912 6 X 0.001/0.116 
= 0.007 867 
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例 7.4 和 例 7. 5 分 别 从 简单 和 复杂 两 种 情况 进行 了 贝 叶 斯 网 络 的 诊断 示例 。 下 面 的 部 
分 将 介绍 同时 具有 预测 功能 和 诊断 功能 的 算法 。 
根据 上 面 的 两 个 例子 ,可 以 总 结 出 贝 叶 斯 网 络 诊断 算法 的 一 般 步 又 ,如 图 7.4 所 示 。 


输入 : 给 定 贝 叶 斯 网 络 B( 包 括 网 络 结构 m 个 结 点 以 及 某 些 结 点 间 的 连 线 ,原因 结 点 到 中 间 结 点 

的 条 件 概 率 或 联合 条 件 概 率 ) ,给 定 若干 个 结果 结 点 发 生 与 否 的 事实 向 量 F( 或 者 称 为 证 据 向 量 )， 

给 定 待 诊断 的 某 个 结 点 t。 

输出 : 结 点 t+ 发生 的 概率 。 

(1) 把 证 据 向 量 输入 到 贝 叶 斯 网 络 B 中 。 

(2) 对 于 B 中 的 每 一 个 没 处 理 过 的 结 点 ,如 果 它 具有 发 生 的 事实 (证 据 ), 则 标记 它 为 已 经 处 理 
过 ; 否则 继续 下 面 的 步骤 。 

(3) 如 果 它 的 所 有 子 结 点 中 有 一 个 没有 处 理 过 , 则 不 处 理 这 个 结 点 ; 否则 ,继续 下 面 的 步骤 。 

(4) 根据 结 点 的 所 有 子 结 点 的 概率 以 及 条 件 概率 或 联合 条 件 概率 计算 结 点 ”的 概率 分 布 ,并 把 
结 点 标记 为 已 处 理 。 

(5) 重复 步骤 (2) 一 (4) 共 m 次 。 此 时 ,原因 结 点 :的 概率 分 布 就 是 它 的 发 生 /不 发 生 的 概率 。 算 法 
结束 。 
需要 注意 的 是 ,第 (5) 步 的 作用 是 使 得 每 个 结 点 都 有 被 计算 概率 分 布 的 机 会 。 


图 7.4 贝 叶 斯 网 络 诊断 算法 的 操作 步 又 


744 贝 叶 斯 网 络 预测 和 诊断 的 综合 算法 


利用 贝 叶 斯 网 络 进行 单纯 的 预测 或 进行 单纯 的 诊断 的 情况 是 比较 少 的 ,一 般 情 况 下 , 需 
要 综合 使 用 预测 和 诊断 的 功能 。 
【 例 7.6】 计算 已 知 参加 晚会 并 且 第 二 天 早上 呼吸 有 酒精 味 的 情况 下 , 宿 醇 的 发 生 
概率 。 
由 于 已 知 参加 了 晚会 (十 PT) ,那么 根据 表 7. 3, 宿 醉 发 生 的 概率 是 0.7, 不 发 生 的 概率 
是 0.3。 根 据 全 概率 公式 
P(+ SA)= P(+ SA |+ HO) x P(+ BO) 十 PC+SA |— HO) x P(— HO) 
一 0.8X0.7 十 0.1X0.3 
三 (0.59 
这 个 结果 就 是 已 知 参 加 晚会 的 情况 下 ,有 酒精 味 的 发 生 概率 。 再 利用 条 件 概 率 公 
可 得 
P(+ HO |+ SA)= P(+ SA |+ HO) x P(+ HO)/P(+ SA) 
一 0.8X0.7/0.59 
一 0.949 15 
这 是 最 终 的 结果 ,也 就 是 说 , 当 参 加 晚会 并 且 第 二 天 早晨 有 酒精 味 的 情况 下 , 宿 醇 发 生 
的 概率 是 0. 949 。 
从 上 面 的 计算 过 程 可 以 总 结 出 解决 这 类 综合 问题 的 一 般 思路 。 首 先 ,要 把 原因 结 点 的 
证 据 ( 此 例 中 是 十 PT) 进 行 扩 散 . 得 到 中 间 结 点 (HO) 或 结果 结 点 (SA) 的 概率 分 布 。 最 后 根 
据 条 件 概 率 公式 计算 中 间 结 点 的 概率 分 布 。 
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这 是 解决 预测 和 诊断 综合 问题 的 一 般 思路 ,下 面 将 给 出 一 个 更 复杂 的 综合 问题 的 例子 。 
【 例 7.7】 计算 在 已 知 有 酒精 味 、 头 疼 的 情况 下 , 患 脑 瘤 的 概率 。 
首先 ,由 条 件 概率 公式 可 以 计算 在 有 酒精 味 的 情况 下 宿 醇 的 发 生 概 率 
P(+ HO | 十 SA) = P(+SA |+ HO) Xx P(+ HO)/P(+ SA) = 0.5656 
然后 ,由 全 概率 公式 可 以 计算 患 脑 瘤 的 情况 下 头疼 的 发 生 概率 (当然 ,这 时 宿 醉 的 概率 
已 经 是 0. 565 6 , 它 参 与 了 下 面 的 运算 ) 
P(+ HA |+BT)= P(+ HA |+BT.,+ HO) x P(+ HO) 
十 PC+HA |+BT,— HO) x P(— HO) 
= 0.99 x P(+ HO) +0.9 x P(— HO) 
一 0.9509 
最 后 ,再 由 条 件 概率 公式 可 以 计算 患 脑 瘤 的 概率 
P(+BT |+ HA)= P(+ HA | 十 BT) x P(+ BT)/P(+ HA) 
一 0.950 9 xX 0.001/0.4052 
= 0.002 347 
可 以 比较 例 7.7 和 例 7.5 的 计算 结果 , 例 7.7 中 计算 得 到 的 患 脑 瘤 的 概率 要 相对 小 一 
些 。 同 样 患 有 头疼 ,两 个 例子 中 患 脑 瘤 的 概率 是 不 一 样 的 。 这 是 因为 , 例 7.7 中 的 结果 结 点 
“有 酒精 味 ? 发 生 , 这 意味 着 头疼 的 原因 有 更 大 的 可 能 是 因为 宿 醇 ,而 不 是 患 脑 瘤 。 
除了 上 面 的 7 个 例子 外 ,读者 可 以 试 着 解决 图 7. 1 所 示 贝 叶 斯 网 络 中 更 复杂 的 例子 ,或 
者 解决 本 章 后 面 的 习题 。 


745 贝 叶 斯 网 络 的 建立 和 训练 算法 


本 章 前 面 各 节 所 进行 工作 的 前 提 是 假设 贝 叶 斯 网 络 已 经 建立 (有 了 结 点 和 连 线 ), 原 因 
结 点 的 概率 分 布 已 经 确定 ,并 且 有 连 线 结 点 间 的 条 件 概率 也 已 经 确定 。 

那么 ,如 何 建立 一 个 贝 叶 斯 网 络 呢 ? 要 建立 贝 叶 斯 网 络 ,首先 要 把 实际 问题 的 事件 抽象 
为 结 点 。 这 些 结 点 必须 有 明确 的 意义 .至少 有 是 、 非 两 个 状态 。 或 者 有 多 个 状态 ,并 且 这 些 
状态 在 概率 意义 上 是 完备 和 互 斥 的 。 也 就 是 说 ,所 有 状态 在 某 一 时 刻 只 能 发 生 一 个 ,并 且 这 
些 状态 的 概率 之 和 为 1 。 

建立 网 络 的 第 二 步 就 是 要 建立 两 个 或 多 个 结 点 之 间 的 连 线 。 有 明确 的 因果 关系 或 相关 
关系 的 结 点 之 间 可 以 建立 连 线 , 那 些 没有 明确 联系 的 结 点 之 间 最 好 不 要 建立 连 线 ,以 防止 网 
络 过 于 复杂 而 不 能 把 握 问 题 的 实质 。 确 定 两 个 结 点 之 间 是 否 有 连 线 ,除了 通过 经 验 判 断 之 
外 ,还 可 以 用 数据 相关 分 析 的 方法 ,请 读者 查阅 相关 的 文献 。 

要 建立 两 个 结 点 之 间 的 连 线 , 必 须 防 止 环 的 出 现 。 贝 叶 斯 网 络 必须 是 有 向 无 环 图 。 在 
图 7.1 中, 如果 建 立 结 点 Smell Alcohol 到 结 点 Party 之 间 的 连 线 ,那么 就 形成 了 一 个 环 
PT~>HO>SA 一 PT. 也 就 不 构成 贝 叶 斯 网 络 了 。 

结 点 的 概率 分 布 和 结 点 间 的 条 件 概率 分 布 可 以 通过 专家 经 验 填 和 人 ,但 使 用 更 多 的 方法 
是 通过 历史 数据 训练 得 到 。 贝 叶 斯 网 络 的 训练 方式 比较 简单 。 作 为 示例 ,下 面 给 出 图 7.1 
所 示 的 6 个 结 点 发 生 的 历史 数据 ,如 表 7. 8 所 示 。 
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表 7.8 贝 叶 斯 网 络 中 的 历史 数据 


序号 PT HO BT HA SA PX 
1 1 | 0 1 1 0 
2 0 0 时 0 1 
1 0 0 0 0 0 
4 1 1 1 0 1 | 
5 0 0 0 0 0 1 
6 1 1 0 1 1 0 
7 1 0 | 0 1 0 
8 0 0 1 0 0 0 
9 1 0 0 0 1 0 


10 1 


根据 表 7. 8 给 出 的 数据 ,可 以 用 统计 的 方式 得 到 任意 结 点 的 概率 分 布 。 假 设 结 点 已 有 
m 个 状态 Pi ,Ps,…,P,, 则 有 


PP 出 现 的 数据 条 数 
总 的 数据 条 数 


例如 ,对 于 结 点 PT, 有 P( 十 PT)=7/10=0.7; P( 一 PT) 一 3/10 一 0. 3。 
如 果 PS 表示 结 点 P 的 一 个 状态 ,QS 表示 结 点 Q 的 一 个 状态 , 则 PS 发 生 时 QS 发 生 
的 概率 为 


P(P,) = (7-8) 


PS 和 QS 共同 发 生 的 次 数 (7-9) 
PS 发 生 的 次 数 | 


例如 ,十 PT 共 发 生 了 7 次 ,十 PT 和 十 HO 共同 发 生 了 4 次 .因此 有 P( 十 HO| 十 PT)= 
4/7 二 0. 571。 同 样 的 方式 也 可 以 计算 P(CQS| 一 PS) 。 

同 理 , 可 以 计算 多 个 结 点 间 的 联合 条 件 分 布 。 假 设 PS 表示 结 点 P 的 一 个 状态 ,QS 表 
示 结 点 Q 的 一 个 状态 ,RS 表示 结 点 R 的 一 个 状态 。 那 么 PS 和 QS 发 生 时 RS 的 概率 为 


PS ,QS ,RS 共同 发 生 的 次 数 (7-10) 
PS 和 QS 共同 发 生 的 次 数 


如 果 结 点 PQ、R 各 有 两 个 状态 ,那么 类 似 式 (7-10) 形 式 的 公式 共有 8 个 ,共同 构成 了 
结 点 P,Q 到 结 点 R 的 联合 条 件 概率 分 布 。 

例如 ,十 昌 HO 和 十 BT 共 发 生 了 2 次 ,而 十 HO、 十 BT 和 十 HA 共 发 生 了 1 次 ,因此 

P(+ HA | 十 HO, 十 BT) = 1/2=0.5 

如 果 某 个 结 点 是 结果 结 点 或 中 间 结 点 :那么 得 到 这 个 结 点 的 概率 分 布 的 方式 有 如 下 
两 种 。 

(1) 直接 从 表 7. 8 所 示 的 数据 中 通过 统计 获得 。 

(2) 先 从 表格 数据 中 通过 统计 获得 原因 结果 的 概率 分 布 ,再 从 表格 数据 中 通过 统计 获 
得 条 件 概率 分 布 或 联合 条 件 概 率 分 布 , 最 后 用 全 概率 公式 计算 中 间 结 点 或 结果 结 点 的 概率 


P(QS | PS) 


P(RS | PS .QS) 
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分 布 。 
可 以 验证 ,这 两 种 方式 获得 的 概率 分 布 是 一 致 的 。 


7.5 SQL Server 2005 中 的 贝 叶 斯 网 络 应 用 


本 节 利 用 SQL Server 2005 中 的 贝 叶 斯 网 络 解 决 一 个 简单 的 预测 和 诊断 问题 。 

(1) 在 SQL Server 2005 中 创建 一 个 新 的 数据 库 ( 创 建 的 过 程 全 部 取 默 认 值 ) ,把 新 建 的 
数据 库 命名 为 BayesDatabase。 

(2) 在 数据 库 BayesDatabase 中 创建 一 个 具有 4 个 列 的 新 数据 表 Table_ 2。 各 列 的 数 
据 类 型 和 性 质 如 图 7. 5 所 示 。 


” 表 - db。e.Teble_2| 搞 要 | 
列 名 数据 类 型 “| 允许 全 | 
int 


图 7.5 贝 叶 斯 网 络 数据 各 列 信息 


(3) 打开 数据 表 Table_2, 向 数据 表 中 输入 数据 。 输 入 之 后 的 结果 如 图 7.6 所 示 。 


» la 11 1 1 
”日 0 1 11 
3 1 0 11 
| 10 10 11 
ls 11 1 0 
le 10 10 1 
7 1 0 10 
lle 10 1 1 
日 0 11 1 
al 11 1 10 
染 | MAL MAL MLL 


图 7.6 贝 叶 斯 网 络 的 历史 数据 入 库 


从 图 7.6 可 以 看 出 ,输入 的 所 有 数据 都 是 4 个 值 之 一 : 0,1,10,11。SQL Server 2005 
的 朴素 贝 叶 斯 数据 挖掘 功能 能 够 把 这 些 值 分 割 成 离散 的 区 间 。 

(4) 创建 新 的 商业 智能 项 目 BayesProject。 

(5) 建立 BayesA 中 的 数据 连接 .连接 到 数据 库 BayesDatabase。 

(6) 建立 BayesA 中 的 数据 源 视图 ,在 建立 视图 的 过 程 中 选择 数据 库 中 的 表格 Table_2。 

(7) 创建 挖掘 结构 。 首 先 要 在 项 目的 解决 方案 资源 管理 器 中 的 “挖掘 结构 ”标签 上 单 击 
鼠标 右键 ,在 弹出 的 快捷 菜单 中 选择 “新 建 挖掘 结构 ”命令 。 选 择 “ 从 现 有 关系 数据 库 或 数据 
仓库 ”建立 挖掘 结构 ,并 选择 Microsoft Naive Bayes 挖掘 模型 。 在 为 各 列 指定 定型 数据 的 
选择 过 程 中 要 让 各 列 的 类 型 如 图 7.7 所 示 。 
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[5 
[5 
[ 口 | 
四 


7.7 贝 叶 斯 历数 据 各 列 类 型 


除了 键 列 mark 外 ,其 他 各 列 都 是 可 输入 和 可 预测 的 。 这 是 因为 , 贝 叶 斯 网 络 不 但 可 以 
进行 预测 ,也 可 以 进行 诊断 。 诊 断 的 逻辑 推理 是 从 结果 到 原因 ,也 可 以 认为 是 另 一 种 形式 的 
预测 。 在 后 面 的 过 程 中 选择 默认 操作 , 便 得 到 了 一 个 贝 叶 斯 网 络 , 如 图 7. 8 所 示 。 


图 7.8 初始 生成 的 贝 叶 斯 网 络 结构 图 
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图 7.8 是 系统 通过 Table_2 中 数据 的 关系 得 到 的 连接 关系 。 从 图 中 可 以 看 出 ,A 和 B 
是 互联 的 ,B 和 C 也 是 互联 的 。 这 是 所 有 具有 概率 关系 的 连接 。 如 果 只 允许 概率 强度 大 的 
连接 出 现 ,可 以 向 下 调整 出 现在 图 7. 8 中 的 滑 条 ,一 些 连 接 关系 会 被 删除 。 通 过 调整 ,会 得 
到 图 7.9 所 示 的 界面 。 


所 有 链接 
Pp 
在 网 络 中 选中 某 个 结 点 以 次 出 显示 基体 轩 关系 。 
是 弛 居 接 。。 国 | 864 结 点 国 pipRag 引 点 
国 册 ee 的 结 点 国 ep 


图 7.9 调整 贝 叶 斯 网 络 的 位 置 和 连接 


至 此 ,已 经 得 到 了 想 要 的 结构 : B 是 原因 结 点 ,A 和 C 分别 是 B 的 结果 结 点 (从 图 数据 
库 BayesDatabase 的 数据 表 Table_2 中 也 可 以 看 出 这 种 关系 )。 下 面 的 工作 就 是 利用 建 好 
的 挖掘 模型 进行 预测 和 诊断 。 

(8) 预测 和 诊断 。 首 先 选 择 “ 挖 掘 模型 预测 ”选项 卡 ,进入 预测 的 界面 。 然 后 选择 Table_2 
为 事例 表 , 随 后 单 击 工具 条 上 的 “单独 查询 ”按钮 .得 到 输入 界面 。 

要 做 的 预测 为 : 已 知 B 发 生 在 区 间 [0,1].A 的 信息 不 详 , 预 测 C 发 生 哪个 值 的 可 能 性 
最 大 。 根 据 题目 要 求 ,把 各 个 值 输入 ,得 到 图 7. 10 所 示 的 界面 。 

为 了 预测 C, 把 “挖掘 模型 "列表 框 中 的 变量 C 拖 动 至 其 下 面 第 一 行 的 最 左边 位 置 , 如 
图 7. 10 的 左下 方 所 示 。 

最 后 单 击 “ 切 换 到 查询 结果 视图 ”, 得 到 预测 结果 ,如 图 7. 11 所 示 。 

从 上 面 的 预测 结果 可 以 看 出 , 当 B 在 区 间 [0.1j 范 围 内 取 值 时 ,预测 C 的 值 是 10, 也 就 
是 C 取 10 的 概率 最 大 。 

下 面 将 要 进行 诊断 工作 : 已 知 A 的 取 值 在 区 间 [10.11], 诊 断 B 的 取 值 。 我 们 先 输入 
各 个 变量 的 值 ,然后 拖 动 B 到 被 预测 的 位 置 ,如 图 7. 12 所 示 。 
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7.11 贝 叶 斯 网 络 预测 结果 


7.12 贝 叶 斯 网 络 诊断 的 数据 输入 
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在 输入 数据 完成 并 选择 了 预测 变量 之 后 , 单 击 “切换 到 查询 结果 视图 ”, 得 到 诊断 结果 ， 
如 图 7. 13 所 示 。 


— Microsoft Visual Studio 


文件 四 ) 


编辑 于 ) 视图 WW 项 目 中 ) 生成 虽 ) 调试 加) 数据库 如 挖 握 模型 工具) 
国 : 回 加)j%X 晤 庭 |] 中 -|b Development ~ | 


六 | ”Tasble 2. dme [设计 ]| Bayes Datsbase dsv [设计 ] | 起 她 页 | 
医 \ 挖 所 结构 I 挖掘 模 型 | 站 近 气 模型 查看 器 | 回 挖掘 准确 性 图 表 


好 挖 据 模 型 预测 
地- 回 | 了 3 
10 
图 7.13 


贝 叶 斯 网 络 诊断 结果 显示 


前 面 已 经 进行 了 贝 叶 斯 网 络 的 预测 工作 和 诊断 工作 。 现 在 进行 预测 和 诊断 综合 的 工 
作 : 已 知 C 的 取 值 在 区 间 [0,1], 求 A 的 取 值 。 变 量 值 的 输入 和 被 预测 变量 的 选择 如 图 7. 14 
所 示 。 


Twole 2. dne [Rit ] I We ee CT EU 
孜 挖 气 结 构 | 人 挖掘 模型 | 起 控 据 模型 查看 器 | 有 挖 扬 准 确 性 图 表 


图 7.14 贝 叶 斯 网 络 预测 诊断 综合 应 用 的 数据 输入 


在 输入 数据 完成 并 选择 了 预测 变量 之 后 , 单 击 "切换 到 查询 结果 视图 ”, 得 到 预测 和 诊断 
综合 结果 ,如 图 7.15 所 示 。 


文件 人 F) ”编辑 到 ) 


项 目 @) ”生成 @) 调试 @) 数据 库 &) 挖掘 模 型 由 ) 工具 CD) 
: 团 - 园 印 | 关 恩 因 | 可 -人 -| |Derelopment ~ 祥 写 大国 串 > 局 


对 | “Table 2. dme [设计 ]| Bayss Database dsv [设计 ] | 起 总 页 | 
9 医 、 挖 所 结构 | 人 挖 所 模型 | 总， 控 据 模型 查看 器 “| 上司 挖掘 准确 性 图 表 


| 


图 7.15 贝 叶 斯 网 络 预测 和 诊断 综合 结果 
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对 上 面 的 预测 和 诊断 综合 操作 ,系统 是 按照 这 样 的 顺序 处 理 的 : 首先 从 C 的 发 生 区 间 
诊断 出 原因 结 点 B 在 各 个 区 间 的 发 生 概率 ,然后 根据 B 结 点 在 各 个 区 间 的 发 生 概率 预测 A 
的 取 值 ,A 最 有 可 能 的 取 值 是 10。 


7.6 小 结 


贝 叶 斯 网 络 是 一 个 白 匣子 ,各 个 结 点 之 间 的 影响 程度 和 条 件 概率 关系 都 可 以 显 式 地 看 
到 ,并 且 意义 明确 。 因 此 , 贝 叶 斯 网 络 更 适合 那些 影响 因素 少 而 且 关 系 明确 的 情况 。 但 贝 叶 
斯 网 络 需 要 使 用 者 更 多 地 了 解 领域 ,以 增加 网 络 的 可 理解 性 和 预测 ,诊断 的 准确 性 。 

SQL Server 2005 中 的 朴素 贝 叶 斯 网 络 功 能 不 但 能 够 进行 预测 、 诊 断 ,以 及 综合 预测 和 
诊断 ,还 能 查看 各 个 变量 对 被 预测 和 被 诊断 的 各 个 值 的 影响 能 力 。 和 希望 读者 动手 实践 ,掌握 
其 中 的 使 用 技巧 。 


7.7 习题 


1. 对 本 章 图 7. 1 所 示 的 贝 叶 斯 网 络 ,计算 有 酒精 味 、 头 疼 、X 射线 检查 呈 阳 性 时 , 患 脑 
瘤 的 概率 ,也 就 是 计算 PC(BT|SA,HA.PX)。 

2. 例 7.5 中 计算 得 到 : 已 知 头疼 的 情况 下 , 患 脑 瘤 的 概率 是 0.007 867; 而 例 7.7 中 计 
算得 到 : 已 知 有 酒精 味 .头疼 的 情况 下 , 患 脑 瘤 的 概率 是 0. 002 347。 为 什么 “有 酒精 味 ” 这 
个 现象 出 现 能 够 影响 患 脑 瘤 的 状况 ? 

3. 贝 叶 斯 网 络 的 三 个 主要 议题 是 什么 ? 

4. 怎样 从 历史 数据 中 训练 出 结 点 之 间 的 条 件 概率 或 联合 条 件 概率 ? 

5. 如 果 贝 叶 斯 网 络 的 各 个 结 点 都 没有 任何 证 据 , 从 历史 数据 中 如 何 用 两 种 不 同 的 方法 
得 到 各 个 结 点 的 发 生 概 率 ? 
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粗糙 集 (rough set,RS) 理 论 是 一 种 新 型 处 理 不 完整 性 和 不 确定 性 问题 的 
数学 工具 , 它 能 对 不 完整 资料 进行 分 析 、 推 理学 习 和 发 现 , 具 有 很 强 的 知识 
获取 能 力 。 它 只 依赖 资料 内 部 知识 ,用 资料 之 间 的 近似 来 表示 知识 的 不 确定 
性 ,因此 ,粗糙 集 理 论 的 提出 很 好 地 解决 了 对 象 的 不 确定 性 的 度量 问题 。 粗 
糙 集 理论 的 要 点 是 将 分 类 与 知识 联系 在 一 起 ,认为 知识 即 是 将 对 象 进行 分 类 
的 能 力 。 粗 糙 集 理论 主要 用 来 进行 属性 约 简 、 规 则 提取 以 及 预测 等 。 近 些 年 
来 RS 理论 已 被 广泛 地 应 用 于 知识 发 现 、 机 器 学 习 、 决 策 分 析 、 专 家 系统 以 及 
模式 识别 等 众多 领域 。 


8.1 引 例 


知识 的 简约 主要 是 使 知识 信息 量 减少 ,将 简约 后 的 信息 重新 组 合 而 产生 
新 的 规则 ,用 来 进行 决策 分 析 。 日 常生 活 中 过 到 的 汽车 车 型 和 性 能 的 关系 就 
能 通过 知识 简约 来 分 析 。 汽 车 的 车 型 (类 型 (大 .中 、 小 )、 机 型 (汽油 .柴油 ` 丙 
烷 )\ 颜 色 (灰色 .白色 .黑色 )) 对 汽车 的 性 能 的 影响 程度 有 多 大 ,可 以 利用 粗 
糙 集 对 影响 汽车 车 型 的 因素 进行 规则 简约 ,找到 影响 汽车 性 能 的 核心 因素 。 
汽车 的 车 型 对 性 能 的 影响 度 以 及 怎样 进行 知识 简约 将 在 下 面 各 节 中 进行 详 
细 介 绍 。 下 面 先 分 析 一 个 简单 的 有 关 积 木 的 例子 。 

积木 是 幼儿 园 的 小 朋友 经 常 玩 贾 的 玩具 ,一 组 积木 共有 8 块 ,每 个 玩具 
有 大 小 、 形 状 和 颜色 ,如 表 8. 1 所 示 。 

对 于 表 8. 1 中 列 出 的 8 块 积木 .有 如 下 问题 。 

(1) 怎样 确定 两 块 积木 是 否 相同 ? 显然 ,两 个 积木 相同 ,它们 的 颜色 、 形 
状 和 大 小 都 必须 相同 才 可 以 。 如 果 它 们 的 这 三 个 属性 都 相同 .那么 这 两 块 积 
木 就 被 认为 是 一 样 的 。 这 是 因为 ,从 表 8. 1 给 出 的 信息 中 已 经 不 能 区 分 这 样 
的 两 个 玩具 了 。 其 实 ,在 表 8. 1 中 并 没有 完全 相同 的 两 块 积木 。 
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表 8.1 一 组 积木 及 其 属性 


积木 颜色 形状 大 小 
Xl 红 圆 小 
Zs 蓝 更 大 
Zs Ea 三 角 小 
zx 蓝 三 角 小 
Zs 黄 圆 小 
Xe 黄 方 小 
7 红 三 角 大 
Tg 黄 三 角 大 


(2) 如 果 某 个 小 朋友 是 色盲 ,有 没有 他 或 她 不 能 区 分 的 两 块 积木 ? 事实 上 ,第 7 块 积木 
和 第 8 块 积木 都 是 三 角形 状 , 且 都 是 大 号 的 。 因 此 ,这 个 色盲 的 小 朋友 并 不 能 区 分 这 两 块 
积木 。 

(3) 如 果 几 个 小 朋友 做 一 个 游戏 : 通过 一 个 小 孔 观察 积木 ,那么 他 们 只 能 看 到 积木 的 
颜色 和 形状 ,并 不 能 判断 积木 的 大 小 。 这 时 ,他 们 不 能 区 分 哪 两 块 积木 ? 事实 上 ,第 3 块 和 
第 7 块 积木 都 是 红色 ,三 角形 状 的 ,因此 ,他 们 并 不 能 区 分 这 两 块 积木 。 

通过 上 面 的 几 个 问题 ,有 如 下 的 分 析 和 结论 : 要 认识 一 个 系统 ,识别 其 中 的 对 象 ,必须 
能 够 对 其 中 的 对 象 进行 分 类 ,分 类 能 力 决定 着 我 们 对 这 个 系统 的 认识 程度 ; 两 个 对 象 如 果 
不 能 被 分 到 不 同 的 类 别 中 , 则 他 们 被 认为 是 不 可 区 分 的 ; 分 类 即 知 识 。 

本 章 将 从 分 类 这 个 被 数学 化 了 的 概念 和 方法 入 手 ,定义 一 个 概念 被 理解 的 程度 ,以 及 进 
行规 则 的 简约 。 


8.2 分 类 与 知识 


分 类 能 力 被 认为 是 人 和 动物 等 智能 体 共 同 具 有 的 自然 能 力 , 可 以 把 分 类 看 作 知识 ,分 类 
即 知识 。 下 面 介绍 严格 分 类 的 基础 一 一 等 价 关 系 。 


821 等 价 关 系 和 等 价 类 


等 价 关 系 是 特别 重要 的 一 类 二 元 关系 。 

【定义 8.1】 设 R 为 定义 在 集合 A 上 的 一 个 关系 , 若 尺 是 自 反 的 对称 的 和 传递 的 , 则 
称 R 为 等 价 关系 。 

例如 ,平面 上 的 三 角形 集合 中 .三 角形 的 相似 关系 是 等 价 关系 ; 兰州 市 居民 的 集合 中 ， 
住 在 同一 区 的 关系 也 是 等 价 关 系 。 

【定义 8.2】 设 R 为 集合 A 上 的 等 价 关系 , 对 任何 wcEA. 集 合 La]g={zlzEA,aRz} 
称 为 元 素 a 形成 的 R 等 价 类 。 由 等 价 类 的 定义 可 知 [ajr 是 非 空 的 ,因为 a€ [ajr;, 因 此 任 
给 集合 A 及 其 上 的 等 价 关 系 尺 , 必 可 写 出 A 上 各 个 元 素 的 等 价 类 。 

例如 ,把 所 有 整数 按照 关系 R( 模 3 相等 ) 分 为 三 类 : [0j]s、[1js 和 [2]R。 其 中 ,[OJ]R 是 
集合 {… ,一 6, 一 3,0,3,3,…} ,其 中 的 任意 两 个 元 素 具 有 等 价 关 系 。 可 以 把 集合 中 的 任意 一 
个 元 素 作 为 这 个 集合 的 代表 ,也 就 是 说 ,[0]R 一 [3]R 。 
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822 分 类 


在 粗糙 集 理论 中 ,“ 知 识 " 被 认为 是 一 种 将 现实 或 抽象 的 对 象 进行 分 类 的 能 力 。 如 在 远 
古 时 代 , 人 们 为 了 生存 必须 能 分 辨 出 什么 可 以 食用 ,什么 不 可 以 食用 ; 医生 给 病人 诊断 , 必 
须 辨 别 出 患 者 得 的 是 哪 一 种 病 。 这 些 根据 事物 的 特征 差别 将 其 分 门 别 类 的 能 力 均 可 看 作 是 
某 种 “知识 ”。 

设 U9 是 我 们 感 兴趣 的 对 象 组 成 的 有 限 集合 , 称 为 论 域 。 任 何 子 集 XSU, 称 为 U 中 
的 一 个 子 集 或 范畴 。U 中 的 任意 概念 族 称 为 关于 U 的 抽象 知识 ,简称 知识 。 我 们 主要 是 对 
在 U 上 能 形成 划分 的 那些 知识 感 兴趣 。 一 个 划分 工 定义 为 

L = {Xi1,X:,*…,X,} (8-1) 

集 族 工 中 的 各 个 集合 是 非 空 完备、 互 斥 的 ,也 就 是 说 


XEUX 和 BRN = LD UU X=U (8 


i=1 

【定义 8.3】 论 域 U 上 的 一 族 划 分 称 为 关于 U 的 一 个 知识 库 (Knowledge Base) 。 一 
个 知识 库 就 是 一 个 关系 系统 二 (U,R), 其 中 U 是非 空 有 限 集 ,R 为 U 上 等 价 关 系 的 一 个 
族 集 。 

U/R 表示 R 的 所 有 等 价 类 (或 者 U 上 的 分 类 ) 构 成 的 集合 。[X]r 表示 的 是 包含 元 素 
ZXEU 的 R 等 价 类 。 

【定义 8.4】 若 PER, 且 P 取 9, 则 P 中 所 有 等 价 关 系 的 交集 也 是 一 个 等 价 关 系 , 称 为 
P 上 的 不 可 辨识 关系 , 记 为 ind(P), 且 有 


[XJinap, = 网 | [Xjr (8-3) 


zeEP 

这 样 ,U/ind(P)( 即 等 价 关 系 ind(P) 的 所 有 等 价 类 ) 表 示 与 等 价 关 系 已 相关 的 知识 , 称 
为 K 中 关于 U 的 P 基本 知识 (基本 集 )。 为 简单 起 见 , 用 U/P 代替 U/ind(P)。ind(P) 的 
等 价 类 称 为 知识 已 的 基本 概念 或 基本 范畴 。 特 别 地 ,如 果 QER, 则 称 Q@ 为 K 中 关于 UU 的 
Q 初等 知识 ,Q 的 等 价 类 为 知识 R 的 Q 初等 概念 或 Q 初等 范畴 。 

同样 , 当 开 一 (U,R) 为 一 个 知识 库 ,ind(K) 定 义 为 K 中 所 有 等 价 关系 的 族 。 

举例 说 明 ,给 定 表 8. 1 所 示 的 一 个 玩具 积木 的 集合 U 一 {ziyza' za zayzsyreyry rs)。 
这 些 积木 有 不 同 的 颜色 ( 红 、 黄 、 蓝 ), 形 状 (方圆 ,三角 ) 和 体积 (小 、 大 )。 因 此 ,这 些 积木 就 
可 以 用 颜色 、 形 状 、 体 积 这 些 知 识 来 描述 。 例 如 一 块 积木 可 以 是 蓝 色 、 圆 而 小 的 ,或 者 红色 、 
方 而 大 的 。 根 据 某 一 属性 描述 这 些 积木 的 情况 ,就 可 以 按 颜色 、 形 状 和 体积 分 类 。 

按 颜色 分 类 , 红 : {zi,X3 ,Xx1}; 黄 : {xs ,Teo ,Ts); 蓝 : {Xx2 ,XT4)。 

按 形状 分 类 , 方 : {zs ,x6); 圆 : {zi ,xs); 三 角 : {x3 ,X43X1 Ts)。 

按 大 小 分 类 ,小 : {1 sT3 9T4 oT6 Te}s 大 : {2 9T7 9T8} 

换 一 种 说 法 ,定义 三 个 等 价 关系 ( 即 属性 ): 颜色 Ri ,形状 R 和 大 小 R; ,通过 这 些 等 价 
类 ,可 以 得 到 下 面 三 个 等 价 类 。 


U Ri 一 {{(zyzrsyzyz) (rs Te rT8} (zzz 


U | R: = {{zxz ,ze}, {X17T5}, {x3 ,T4377 ,Ts)} 


UR= ((msasi yr {rr }} 
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可 以 看 出 ,这 些 等 价 类 是 由 知识 库 K 二 (U1|{Ri,R;,Rs}} 中 的 初等 范畴 构成 的 。 基 本 
范畴 是 初等 范畴 的 交集 构成 的 ,例如 下 列 集合 : 


《3 位》 
{zz ,Te6} 门 {zzyze} = {x2} 
它们 分 别 为 {Ri ,Rs) 的 基本 范畴 , 即 红色 三 角形 、 蓝 色 方形 。 
而 下 列 集合 : 
{mom sr} 门 《zey2rsef(tzas2r2o = {xy} 
{zz rT6} MN (zz MN {x2 77 ,Te8} = {zx} 
它们 分 别 为 {Ri ,R; ,Rs } 的 基本 范畴 , 即 红色 大 三 角形 、 蓝 色 大 方形 。 
8.3 ”粗糙 集 


83.1 分 类 的 运算 
多 个 分 类 构成 的 集合 可 以 通过 共同 作用 形成 一 个 合成 的 分 类 ,对 应 一 个 等 价 关 系 。 分 
类 合成 有 如 下 运算 方式 。 将 两 个 分 类 尽 ; 一 {{ziyzsyzejfzs}),R: 一 ((ziyzs)yfzsyze}) 对 
应 的 等 价 关 系 以 表格 的 形式 表示 出 来 ,按照 对 象 的 顺序 排列 ,同一 个 关系 中 的 对 象 用 相同 的 
标识 符 来 标记 ,例如 Ri 中 的 {ziyzsyzs} 可 以 用 1 来 标识 ,{zz} 用 0 来 标识 。 如 表 8. 2 所 示 。 
表 8.2 等 价 关 系 表 


R, 1 0 1 1 
R; 1 1 0 0 


根据 表 8.2 所 示 ,将 R 和 Rs 中 对 象 对 应 的 列 进行 比较 ,如 果 两 个 列 有 相同 的 标识 符 ， 
就 把 它们 归 为 一 类 ,例如 对 象 zs .zs 中 对 应 的 列 均 为 (0.1), 所 以 把 它们 归 为 一 类 。 根 据 这 
种 推理 ,合成 后 的 分 类 Ri Rs 二 {{zx1},{xz), (zavzi))。 


832 分 类 的 表达 能 力 


【定义 8.5】 如 果 一 个 对 象 集 能 够 用 某 个 分 类 的 等 价 类 通过 交 、 并 、 补 运算 取得 , 则 这 
个 对 象 集 被 认为 是 可 以 通过 这 个 分 类 表达 的 ,否则 就 被 认为 是 不 可 以 通过 这 个 分 类 表达 的 。 
一 组 分 类 构成 论 域 上 的 一 个 知识 库 。 

例如 ,分 类 集合 尽 一 {zayzsyz) Rs 一 (zzzyz) (Ri R2: 可 以 构成 一 个 知识 库 。 对 
象 集 {x1} 可 以 通过 知识 库 {Ri, Rs} 来 表达 ,对 象 集 {xi,x3) 不 可 以 通过 知识 库 {Ri,Rs) 来 
表达 。 


833 上 近似 集 和 下 近似 集 


【定义 8.6】 一 个 知识 库 K 二 (U,R), 令 XCR, 且 RR 为 U 上 一 等 价 关 系 ,X 的 下 近似 
集 就 是 对 于 知识 R 的 能 完全 确定 地 归 人 集合 X 的 对 象 的 集合 . 记 作 R_(X)={x|xE€U， 
[z]gsCX}; X 的 下 近似 集 是 知识 R 的 在 U 中 一 定 和 可 能 归 入 集合 X 的 对 象 的 集合 , 记 作 
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R-(X)={z|zEU,[Lzjrf\ XA9}.。 

例如 ,一 个 知识 库 玉 一 (U,R) ,其 中 UU= {zi,zxz ,zs,z4,xs) ,一 个 等 价 关 系 R 形成 的 等 
价 类 为 到 一 {ziyzz),Yz: 一 {zs),7s 一 (zi) ,于 一 {x5}, 外 二 {xz ,Tz4 ,zs)}。 根 据 下 近似 集 和 上 
近似 集 的 定义 得 出 R_(X)=YsUY={zx4,zxs},R-(X)=Yi1 UY UY = {ri ,rr rs}。 


834 正 域 . 负 域 和 边界 


【定义 8.7】 粗糙 集 的 正 域 (下 近似 ) 是 指 知识 R 和 知识 U 中 所 有 包含 在 X 的 对 象 的 
集合 , 记 作 POSR(X) 一 R_CX); 负 域 是 指 知识 尺 和 知识 U 中 肯定 能 包含 在 U 一 X 中 元 素 的 
集合 , 记 作 NEGR(X) 王 U 一 R (CX); 边界 指 的 是 知识 R 和 知识 U 中 既 不 能 归 和 人 X ,也 不 能 
肯定 归 和 人 U 一 X 的 元 素 的 集合 , 记 作 BNR(X)=R-(CX) 一 R_CX)。 


835 粗糙 集 应 用 举例 


通过 学 生 所 学 专业 、 国 家 政策 对 就 业 的 影响 来 介绍 粗糙 集 的 应 用 。 所 学 专业 、 国 家 政策 
与 就 业 情况 的 关系 如 表 8. 3 所 示 。 
表 8.3 所 学 专业 、 国 家 政策 与 就 业 情 况 的 关系 表 


毕业 生 专业 就 业 情 况 国家 政策 (是 否 扩招 ) 
王晓明 计算 机 有 否 
李 丽 环境 无 是 
张 林 环境 有 否 
王 飞 计算 机 有 是 
赵 阳 林学 无 是 


对 于 表 8. 3 提供 的 数据 ,可 以 设 等 价 关系 为 “专业 ”, 等 价 类 一 (王晓明 , 王 飞 },Y: 一 
{ 李 丽 , 张 林 },Y; 二 { 赵 阳 }。 待 考查 子 集 “有 工作 者 ”X= 二 {王晓明 , 张 林 , 王 飞 )}。 
根据 粗糙 集 定义 ,有 如 下 计算 。 
POSg(X) 一 R_CX) 一 Wi 一 (王晓明 , 王 飞 } 
R (X) = 二 YU Y: = {王晓明 , 王 飞 , 李 丽 , 张 林 } 
NEGRCX) =U— R(X) =Y, = { 赵 阳 } 
BNRCX) = R-(X) 一 R_(X) ==Y: = { 李 丽 , 张 林 } 
根据 上 面 的 计算 结果 ,有 如 下 的 分 析 和 判断 。 
(1) 根据 POSR(CX): 如 果 专 业 是 计算 机 ,那么 就 有 工作 。 
(2) 根据 R-(X): 如 果 专 业 是 计算 机 或 者 环境 ,那么 可 能 有 工作 。 
(3) 根据 BNR(CX): 如 果 专 业 是 环境 ,那么 可 能 有 工作 ,也 可 能 无 工作 。 
(4) 根据 NEGr(X): 如 果 是 林学 ,那么 肯定 无 工作 。 
由 此 ,可 以 判断 专业 和 就 业 之 间 的 大 致 关系 。 
在 上 面 的 分 析 之 前 我 们 设 定 等 价 关系 为 专业 .也 可 以 把 国家 政策 “是 否 扩招 ”作为 等 价 
关系 。 由 此 得 到 的 等 价 类 为 : Yi 一 { 李 丽 . 王 飞 , 赵 阳 ),Y, 一 {王晓明 , 张 林 } ,待考 查 子 集 “ 有 
工作 者 ”X 一 (王晓明 , 张 林 , 王 飞 } 。 
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根据 粗糙 集 定义 ,有 如 下 计算 。 
POSR(X) = R_(X) 一 Y: = {王晓明 , 张 林 } 
R(X) 二 YU Y, 二 {王晓明 , 王 飞 , 李 丽 , 张 林 , 赵 阳 } 
NEGRCX) =U—R- (X)=¢9 
BNRCX) = R-(X) 一 R_(X) 一 Y= 二 {王晓明 , 张 林 } 
根据 上 面 的 计算 结果 ,有 如 下 的 分 析 和 判断 。 
(1) 根据 POSR(CX): 如 果 没 有 扩招 ,那么 就 有 工作 。 
(2) 根据 R-(X): 如 果 扩 招 或 者 没有 扩招 ,那么 可 能 有 工作 。 
(3) 根据 BNk(X): 如 果 扩 招 , 那 么 可 能 有 工作 ,也 可 能 无 工作 。 
根据 以 上 结果 ,可 以 判断 国家 招生 政策 “是 否 扩招 ”和 就 业 之 间 的 大 致 关 系 。 


836 粗糙 集 的 性 质 


粗糙 集 及 其 运算 有 许多 重要 性 质 , 下 面 将 列举 常用 的 14 个 性 质 。 

(1) 当 且 仅 当 R-(CX)=R_CX),X 为 R 的 可 定义 集 。 

(2) 当 且 仅 当 R-(X) 关 R_(X) ,对 于 关系 R,X 为 粗 集 。 

Cy Re (XMEXER TX 

(4) R- (pg)=R_(g)=9,R- (U)=R_(U)=U 

(5) R- (XUY)=R- (X)UR-(X) 

(6) R_(XNY)=R_(X)NR_(X) 

(7 XEY SR (XIERAYY 

(2) XEY=>R 《XICR CY 

(9) R AKUYIOR XIUYRAX) 

(10) R(XUYYECR XIURT (YY 

(11) R_(—X)=—R- (X) 

(12) R-(—X)=—R-_(X) 

(13) R_ (R-_(X))=R- (R_(X))=R-_(X) 

(14) R-(R- (X))=R- (R-(X))=R-_(X) 

上 面 性 质 的 证 明 比 较 简 单 .这 里 只 给 出 其 中 (3) 和 (13) 的 简单 证 明 。 

对 于 第 (3) 条 ,根据 下 近似 的 定义 ,R_(X) 二 {x|zEU,[xjJaCX}。 对 于 R_(X) 中 的 
每 个 zx, 既然 [xjJaCX, 那 么 一 定 有 xEX, 因 此 R_(X)CX。 同 理 ,根据 上 近似 的 定义 ， 
R-(X) 二 {zx|zEU,[zxjr 门 X 隆 pg}。 对 于 XX 中 的 每 个 元 素 x, 有 xEX, 自 然 有 [xje 门 X 隆 9; 因 
此 有 xzER-(CX) ,所 以 XCR-(CX) 。 

对 于 第 (13) 条 ,有 一 条 原理 是 证 明 的 基础 : 集合 X 的 下 近似 是 R 划分 的 若干 个 集合 的 
并 ,这 从 下 近似 的 定义 R_(X)= 二 {zx|xEU,[xjJeCX} 可 以 看 出 。 既 然 R_(X) 是 若干 个 划分 
集合 的 并 ,那么 这 个 集合 无 论 再 取 上 近似 还 是 取 下 近似 ,其 结果 都 是 一 样 的 。 
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8.4 ”辨识 知识 的 简化 


84.1 集合 近似 精度 的 度量 


一 个 集合 可 能 恰恰 能 够 被 关系 R 所 描述 ,也 就 是 说 ,这 个 集合 是 RR 形成 的 某 些 等 价 类 
的 并 ; 或 者 这 个 集合 不 能 被 关系 R 所 描述 。 这 种 可 描述 的 程度 可 以 精确 度量 ,下 面 给 出 集 
合 被 描述 程度 的 度量 定义 。 

【定义 8.8】 由 等 价 关 系 尺 描述 的 对 象 集 X 近似 精度 为 
card(R_(X)) 
card(R™ (X)) 

dr( 闵 ) 反 应 了 了 解 集合 X 可 以 被 描述 的 程度 ,其 中 card(R_(X)) 表 示 X 的 下 近似 集合 
中 元 素 的 表示 ; card(R”(X)) 表 示 X 的 上 近似 集合 中 元 素 的 个 数 。 对 于 dr (X): 

(1) 如 果 dr(X) 二 0, 则 XX 是 R 全 部 不 可 定义 的 。 

(2) 如 果 dr(X) 二 1, 则 XX 是 R 全 部 可 定义 的 。 

(3) 如 果 0 二 dr (X) 二 1, 则 XX 是 R 部 分 可 定义 的 。 

Pr(X) 二 1 一 dr (XX) 反 映 了 定义 集合 X 的 粗糙 程度 ,也 就 是 不 被 关系 R 所 描述 的 程度 ， 
称 为 X 的 粗糙 度 。 例 如 ,一 个 知识 库 ==(U,R), 其 中 U= {zx ,x3 ,TXT6 XI，T8) ,一 
个 等 价 关 系 尺 形成 的 等 价 类 为 Yi 一 (ziyziyzs),ysz 一 {zzyziyzyz)， ys 一 (zs), 7 一 (ze)。 
分 析 以 下 集合 与 R 近似 程度 : Xi 二 {xi ,x4 ,xs} ,Xs 二 {X375) ,Xs 二 {x3 ,Te ,TX8)。 

card(R_ (Xi1)) 0 


R_(X1) 一 多 R (X) = Ys UY,,dr(X1) = card(R- (KX) 6 


dr(X)= 


1 到 card(R_ (X,)) 三 地 
R_(X2) 一 Ys,R  (X,) = YY U Y, ,dr(X;) card(R- CXa)) 4 
2 


Ea 一 = 二 card(R_ (X;)) 
i sh 


上 面 的 计算 结果 表明 ,X, 是 R 全 部 不 可 定义 的 ,X。 和 Xs 是 R 部 分 可 定义 的 。 


842 分 类 近似 的 度量 


一 个 分 类 的 作用 结果 和 外 在 表现 就 是 由 这 个 分 类 形成 的 等 价 类 。 这 些 等 价 类 可 以 分 别 
被 关系 R 完全 描述 不 完全 描述 或 者 完全 不 描述 。 可 以 量化 这 种 分 类 被 描述 的 程度 ,定义 
如 下 。 
【定义 8.9】 分 类 近似 的 第 一 种 度量 定义 为 
pb card(R_ (X;)) 
dF) = 在 二 一 
2) card(R- (Xi)) 
分 类 近似 的 第 二 种 度量 定义 为 
由 card(R_ (Xi)) 
六 card(U) 
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其 中 ,下 是 分 类 ,Xi ,X,,…,X, 是 由 分 类 下 形成 的 等 价 类 。 
例如 ,一 个 知识 库 K==(U,R), 其 中 UU= {xi ,zxz ,x3 ,XT4sXs Te ，X1 Ts) ,一 个 等 价 关 系 RR 
形成 的 等 价 类 为 一 {x1 ,zs xs),Y2 一 {zz ,XT4) ,Ys 一 {xo,x1sTs}。 现 有 由 分 类 下 形成 的 等 
价 类 : Xi 二 {zi ,zo Ts) ,Xs 一 (za,Xs ,78) ,Xs 一 {ze ,zr}。 分 析 由 R 描述 分 类 下 的 近似 度 。 
R CARY ss 
R_(X:)=9 
及 _(CXs) 一 9 
R(X =Y, UY, = (rrrrrsrs)} 
R- (X;:) = Y, UY, = {zi ,7 ,Zs ,T6717 ,Te} 
及 (Xs) = Y, = (xe ,Xi ,Ts}。 
由 上 面 的 分 析 可 得 到 


2) card(R_(X)) 


2+0+0_1 
dr(F) 十 6 十 3 7 
> card(R™ (Xi;)) 
i=l 
3 card(R_(X;)) 
产 (F) i=1 之 十 和 二 站 1 
四 card(U) 8 4 


上 面 的 计算 结果 说 明 , 分 类 下 是 不 能 被 关系 RR 完全 描述 的 ,只 能 部 分 、 近 似 描 述 。 
dr( 下 ) 和 rg( 下 ) 两 种 度量 方式 虽然 计算 的 结果 并 不 一 定 相 同 , 但 两 者 的 性 质 是 一 样 的 ,都 可 
以 作为 分 类 被 近似 描述 的 度量 。 


84.3 ”等 价 关 系 的 可 省 略 、 独 立 和 核 


【定义 8.10】 对 于 知识 库 一 (U,R) ,如 果 存 在 等 价 关系 rER, 使 得 ind(x) 二 ind(R)， 
则 称 -是 可 省 略 的 ; 否则 , 称 7 是 不 可 省 略 的 。 
(1) 车 任意 rER 是 不 可 省 略 的 , 则 称 R 是 独立 的 。 
(2) 独立 等 价 关 系 的 子 集 也 是 独立 的 。 
若 QCP,ind(Q) 二 ind(P), 且 QQ 独立 , 则 称 Q 为 P 的 简化 , 记 作 red(P)。 所 有 简化 的 
交集 称 为 等 价 关系 的 核 , 记 作 core(P)。 
例如 ,一 个 知识 库 K= 二 (U,R), 其 中 U= {x ,zxz ,x3,XT4 ,Xs ,Xe ,XI Ts}, 等 价 关 系 RR 二 
{Ri;R; ,Rs}, UIRI={{zi T0975} {Ze 9T0} (Ts}, {rTesT1}}s UIRs ={ {x1 7 75}, {x0}, 
{zzyzeyzyyzs}}s UITR, ={{x1 Ts ) {x2 X17 Ts)} {Xs Ts Xe}}。 等 价 关 系 ( 知 识 )Ri 、R, 和 
R: 能 和 否 省 略 ? 
【 解 】 要 判断 哪 条 等 价 关系 可 以 省 略 ,需要 先 计算 去 掉 该 关系 后 ,剩余 关系 形成 的 等 价 
类 是 否 与 原 等 价 类 一 致 。 
U|R= {{rrs}, {x2 Te), {Ta} {To}, (xe}, {x7}} 
U|(R—R) = {{r xs} {rsx za (za (zy {xe}} 
U|(R—R:) = {({xiszrs}, {ra ,Te}, {zx}, {zr}, (xe}, {x7 }} 
UlR— B= (rr {nn tt} 
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U|IR= {{zi,rs}, (zo ze}, (zs (Ta) , {ze}, (xi}} 
UIl(RS—R)= {({ziz} (Tis Trs Te} ss {rs (we) sl}} 
U| (CR 一 RR:) = {{rivrs}}, {zor za} (Ta3}, (ze {ze}, (x7}} 
UIR—B)= {ma}(mmm} tml (rl {mn}} 
由 于 UI(R 一 R1) 隆 U1|R, 故 等 价 关 系 Ri 不 能 省 略 ; U|CR 一 R:) 一 U| CR 一 Rs) 一 U|R， 
故 等 价 关 系 Ri ,Rs 均 能 省 略 ; 等 价 关 系 族 R 有 两 个 简化 : Qi 一 {Ri,R,),Q, 一 {Ri1,Rs)。 因 
此 ,core(R)={Ri,R;,} {Ri,R;}=R.。 


84.4 ”等 价 关系 简化 举例 


举例 说 明 ,给 定 一 个 玩具 积木 的 集合 器 二 (xi ,zo ,ZX3,T4oXs ,x6 ,X17,Ts)。 现 在 这 些 积 木 
有 不 同 的 颜色 ( 红 、 黄 、 蓝 ) ,形状 ( 方 、 圆 \ 三 角 ) 和 体积 (小 、 大 )。 因 此 ,可 以 按 颜色 (Ri)、 形 
状 CRs) 和 体积 (R;) 分 类 。 

按 颜色 分 类 , 红 : {zi,zrs}; 黄 : {zsyzeyzs}; 蓝 : (zzyziyzry)。 

按 形 状 分 类 , 方 : {zz ,xe); 圆 : {ziyzs}; 三 角 : {x3 ,4 5X1 ,Xs)。 

按 大 小 分 类 ,小 : {ziyvzayzsyzre}; 大 : {zzyzeyzyyze)。 

需要 解决 的 问题 是 : 等 价 关 系 ( 知 识 )R 、R。 和 Rs 能 否 省 略 ? 

【 解 〗 通过 题目 给 出 的 三 个 等 价 关 系 , 可 以 得 到 下 面 三 个 等 价 划 分 。 


UI|R = {{(srrm)s {mreorrs)} {rerror ry}} 
U|R, = {{z2rT0) {TisTs) {xy sr sr rir ze}} 
U | Rs = {{zayzrsyzs,z6), (za Tiyzyryzs}》 


从 上 面 的 三 个 等 价 划 分 ,可 以 得 到 如 下 的 等 价 划分 。 
UIR= {({z} (rz) {zs} {Ta ri} (xe}s {xe} (xe}} 
UIR—R) = {nn} dr } {ra} {rrr ia} tne}} 
U|R—R:) = {{z1sT3} {x2 T4717} {Ts Te} {xa}} 
U|R—R) = {{z}, {re} {zs}, (zs 77} {x5}, {x6} {ze}} 
由 上 面 的 计算 可 得 : U|(R 一 Ri) 了 U1R, 所 以 等 价 关 系 Ri 不 能 省 略 ; U|(R 一 R,) 冯 UIR， 
所 以 等 价 关 系 Rs 不 能 省 略 ; U|(R 一 R;) 一 U1R, 所 以 等 价 关 系 Rs 能 省 略 。 即 关于 颜色 和 
形状 的 等 价 关 系 是 不 可 省 略 的 ,关于 大 小 的 等 价 关 系 是 可 以 省 略 的 。 等 价 关 系 R 只 有 一 个 
简化 : Q 二 (Ri ,R,), 因 此 ,关系 R 的 核 core(R) 一 (Ri ,Rs)。 这 说 明 , 颜 色 和 形状 对 这 个 系 
统 的 等 价 划分 而 言 是 必 不 可 少 的 。 如 果 缺 少 任意 一 个 ,就 不 能 把 其 中 的 对 象 分 割 开 。 


845 知识 的 相对 简化 


【定义 8.11】 对 于 知识 库 KK 一 (U,R),R 二 (P,S). 将 S 的 P 正 域 定义 为 
POSp (S) =U P_(S)， 
如 果 存 在 ,使 得 
POSp_,(S) = POSp (S) 
则 称 ~ 为 己 中 相对 于 S 是 可 省 略 的 ,否则 称 7 为 P 中 相对 于 S 是 不 可 省 略 的 。 
车 QP 一 r,POSo(S) 一 POSp(S). 且 Q 为 最 小 集 , 则 称 Q 为 已 相对 于 S 的 简化 , 记 作 
reds(P)。P 相对 于 S 的 核 是 P 相对 于 S 的 所 有 简化 的 交集 。 
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846 知识 的 相对 简化 举例 


本 节 仍 然 举 积木 例子 来 说 明知 识 的 相对 简化 。 给 定 一 个 玩具 积木 的 集合 U 一 {zivzz， 
Zs oT4oX5 bX6 ,TIT8), 根 据 积 木 的 情况 ,就 可 以 按 颜色 、 形 状 和 体积 分 类 。 

根据 上 述 的 三 个 属性 ,定义 三 个 等 价 关 系 ( 即 属性 ): 颜色 Pi ,形状 P。 和 大 小 Ps ,通过 
这 些 等 价 类 ,可 以 得 到 下 面 三 个 等 价 划 分 。 


UI|PS {({zrm TT rr}} 
U | Pa: = {{zxi,zs Te6}, (T2717 rT8) (Ts rT4)} 
UP; 人 


结果 属性 集 S 导致 如 下 等 价 类 : U1S={{ziyzrs,ze),{zazr),fzrsejfzsyz))。 分 析 
用 条 件 属性 集 P 相对 于 结果 属性 S 表达 系统 时 ,条 件 属 性 P; 、.P, 、P， 哪个 能 够 省 略 ? 
【 解 】 
UlPSEUVILPsPsD} = 人 
POSp (S) =U P_(S) = {zis7z5} U (zsyze) U (ze U {zr1} = {x1 33 174 ss sXe sx7} 
UIlP Pp)= {zn} (TT Te (Ts Ts {ro} 
POSp-p, (S) = {x1,T3 1T4 Ts To) 
和 | 《有 一 有 三 {{(rerm mr {Dn} {em}} 
POSp_p,(S)=$ 
U| (Po—P;)= {{xi,x3 76), {X27T8}, {XT3sT4), {x7}} 
POSp-p, (S) = {x1973 74 9Ts sXe rT7} 
由 于 
POSp-p, (S) = POSp(S) 
条 件 属性 P; 是 可 以 省 略 的 ; 又 由 于 
POSp-p, (S) 和 关 POSp-m (S) A POSp (S) 
条 件 属性 P,P, 是 不 可 省 略 的 ,条 件 属性 集合 P 相对 于 结果 属性 集 S 的 核 是 {Pi ,P,)。 


8.5 决策 规则 简化 


85.1 知识 依赖 性 的 度量 


知识 的 依赖 性 可 以 形式 化 地 定义 如 下 。 

【定义 8.12】 令 K==(U.,R) 是 一 个 知识 库 ,P,QSSR, 则 : 

(1) 知识 Q@ 依 赖 于 知识 PP 或 知识 P 可 以 推导 知识 Q, 当 且 仅 当 ind(P)Sind(Q) 时 , 记 
恬 轩 二 

(2) 知识 P 和 知识 Q 是 等 价 的 , 当 且 仅 当 PQ 且 Q 一 P, 即 ind(P) 一 ind(Q) 时 , 记 作 
P= 

(3) 知识 P 和 知识 Q 是 独立 的 , 当 且 仅 当 且 PQ 和 QP 均 不 成 立时 , 记 作 P 冯 Q。 

下 面 举例 说 明知 识 的 依赖 性 。 假 设 知识 P 和 知识 Q 有 如 下 分 类 。 


UI|IP= {{(rsre) {rar Ta} {ra} {ra} {zo}, {zr}} 


U|Q= {{xzi,xs}, {x ,77,T8), {Tx3 ,Ts ,Te}} 
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可 以 看 出 ,ind(P)SCind(Q), 即 知识 PP 依赖 于 知识 Q。 

有 了 时候 知识 的 依赖 性 可 能 是 部 分 的 ,这 意味 着 知识 Q@ 仅 有 部 分 是 由 知识 P 导出 的 ,部 
分 可 导出 可 由 知识 的 正 域 来 解释 。 

【定义 8.13】 令 ==(U,R) 是 一 个 知识 库 ,P,QSR, 当 
card(POSp (Q)) 

card(U) 


时 ,我 们 称 知识 Q@ 是 &(0 过 k 二 1) 依赖 于 知识 卫 , 记 作 P 一 Q。 

(1) 当 k 二 1 时 , 称 知识 Q 是 完全 依赖 于 知识 PP 。 

(2) 当 0<A<1 时 , 则 称 知识 Q 是 部 分 (粗糙 ) 依 赖 于 知识 也。 

(3) 当 &=0 时 , 则 称 知识 Q 完全 独立 于 知识 己 。 

上 述 思想 也 可 以 解释 为 将 对 象 分 类 的 能 力 。 确 切 地 说 , 若 & 一 1, 则 论 域 的 所 有 元 素 都 
能 够 用 知识 P 来 分 类 于 U/Q 的 概念 之 中 。 若 & 入 1, 则 仅仅 是 论 域 中 属于 正 区 域 的 那些 元 
素 能 够 用 知识 P 来 分 类 于 U/Q 的 概念 之 中 。 若 &=0 时 , 则 论 域 中 所 有 元 素 都 不 能 用 知识 
卫 来 分 类 于 UVQ 的 概念 之 中 。 因 此 ,系数 r,(Q) 可 以 看 作 是 Q@ 与 P 间 的 依赖 程度 。 

下 面 以 汽车 车 型 与 性 能 的 例子 来 说 明度 量 知识 的 依赖 程度 。 汽 车 车 型 与 性 能 的 关系 如 
表 8.4 所 示 。 


k rp(Q) 


表 8.4 汽车 车 型 与 性 能 的 关系 


U 加 p: bs $1 32 
车 号 类 型 机 型 颜色 速度 加 速 
Zl 中 柴油 灰色 中 差 
2 小 汽油 白色 高 极 好 
Za 大 柴油 黑色 高 好 
2 中 汽油 黑色 中 极 好 
Zs 电 柴油 灰色 低 好 
Ze 大 丙烷 黑色 高 好 
Z7 大 汽油 白色 高 极 好 
zs 小 汽油 白色 低 好 
由 表 8.4 中 的 数据 得 出 ,条 件 属性 集合 P= {pi ,pz ,ps) ,结果 属性 集合 S== {51 ,52)。 


U|P= {{x,zrs}, {rs Ts), (x1) {x3}, (x4}, (xe}} 
U|S= {{rz} {rz rT}, {rasTeo}, (To) (xs » xe}} 
POSp(S) = (zsyziyzeyZr7} 


card(POSp (S)) 4 
card(U) 8 


因为 0<r(S) 达 1, 则 称 知识 S 是 部 分 依赖 于 知识 , 即 汽车 的 性 能 与 它 的 车 型 部 分 相 
关 , 车 型 对 性 能 有 一 定 的 影响 因素 ,并 不 能 决定 汽车 的 性 能 。 
852 简化 决策 规则 

形式 上 一 个 四 元 组 S 一 (U,R.V,/) 是 一 个 知识 表达 系统 ,其 中 UU 为 对 象 的 非 空 有 限 集 
合 , 称 为 论 域 。R 为 属性 的 非 空 有 限 集合 ; V== LJV,,V, 是 属性 a 的 值 域 ; /; UXA->V 是 
一 个 信息 函数 , 它 为 每 个 对 象 的 每 个 属性 赋 子 一 个 信息 值 , 即 YaeE A,zEU, f(x,a) EV,， 


rs(S) 


0.5 
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通常 知识 表达 系统 也 称 为 信息 系统 ,通常 也 用 S=(U,A) 来 代替 S==(U.A,V ,了 )。 

知识 表达 系统 的 数据 以 关系 表 的 形式 给 出 ,关系 表 中 的 每 一 行 对 应 于 要 研究 的 对 象 , 列 
则 对 应 于 对 象 的 属性 ,对象 的 基本 信息 是 通过 指定 对 象 的 各 个 属性 的 值 来 表达 的 。 

容易 看 出 ,一 个 属性 对 应 于 一 个 等 价 关 系 ,因此 一 个 表 就 可 以 看 成 是 定义 的 一 簇 等 价 关 
系 , 即 知识 库 。 前 面 讨论 的 问题 都 可 以 用 属性 及 属性 值 引入 的 分 类 来 表示 ,知识 约 简 可 以 转 
化 为 属性 约 简 。 

【定义 8.14】 S 二 (U,A,V, 几 ) 是 一 个 知识 表达 系统 ,R 二 PUD,PNMD==$,P 称 为 条 件 
属性 集 ,D 称 为 决策 属性 集 。 具 有 条 件 属性 集 和 决策 属性 集 的 知识 表达 系统 称 为 决策 表 。 

决策 表 是 一 类 特殊 而 重要 的 知识 表达 系统 。 多 数 的 决策 问题 都 可 以 用 决策 表 的 形式 来 
表达 ,这 一 工具 在 决策 应 用 中 起 着 重要 的 作用 。 

规则 提取 的 具体 实现 步骤 如 下 。 

(1) 提出 论 域 中 各 条 件 属性 和 决策 属性 ,组 成 二 维 资料 视图 即 决策 规则 表 。 

现在 以 常见 的 例子 说 明 决 策 表 的 应 用 。 给 出 一 个 关于 病人 的 决策 表 如 表 8. 5 所 示 。 


表 8.5 关于 病人 病情 的 决策 表 


条 件 属 性 决策 属性 
病人 头痛 肌肉 痛 体温 流感 
Tl 是 是 正常 否 
Xe 是 是 高 是 
Ts 是 是 很 高 是 
x 否 是 正常 否 
xs 否 否 高 否 
Ze 否 是 很 高 是 
Xr 资 否 高 是 
Xs 否 是 很 高 否 


(2) 将 决策 表 的 资料 进行 离散 化 ,逐一 检查 每 一 个 属性 ,看 其 是 否 能 被 消去 ,从 而 消去 
多 余 的 属性 ,得 到 决策 表 的 核 集 。 

令 U= {ri ,x ,x3 ,Th Ts sXe rT1 rT8} 

C 王 {头痛 ,肌肉 痛 , 体 温 } 

Ci 二 {头痛 },C; 二 {肌肉 痛 ) ,Cs 二 {体温 } 


DD 二 {流感 } 

则 有 
U|C, = {{xis72 ,73}, {Ts Ts sXe » TX7 ,Te }} 
UIG = rms {rs}} 
U|Cs = {xisz), {xa srTe Ts}, {x2 ,Xs ,XT7}} 
U| (CC = {(zivzzoyzs)v {To Tes Te}, {xs ,7}} 
Ul|{GC GCG) = {nm} {re} (rs) {ra} (rerre}s {re sr}} 
U| {CC3} = {zirTa} {x2}, {x3 Tes Ts), {Ts ,XT7}} 
UIC= {zx}, (za}, (x3}, {x4} , {xe ss}, {xs ,x7}} 
UD= Mm (ns 


由 于 有 
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POSc(D) = {zx1} U (ze U (zs U (ze = {x172 ,T3174) 


card(POSp (Q)) 4 
card(U) 8 


Fe)) 
所 以 DD 部 分 依赖 于 C, 又 因为 
POSicc,) (D) = {Xi ,Xs, Xs} POSc(D) 
POSic -cy (D) = {Xi1,X:, Xs, Xs} = POSc(D) 
POSicc,(D) = $A POSc(D) 
POStccc) (D) = $ # POSc(D) 
POSic cc) (D) = {Xi, Xs} ¥ POSc(D) 
所 以 C 的 DD 简约 (相对 简约 ) 为 C 一 C: 一 {C ,Cs)。 
(3) 对 于 消去 多 余 属性 的 决策 表 , 对 每 一 条 决策 规则 进行 简约 ,得 到 简约 的 决策 规则 。 
进行 属性 简约 后 得 到 的 决策 表 如 表 8.6 所 示 。 
表 8.6 简约 后 的 决策 表 


0.5 


条 件 属性 决策 属性 
病人 头痛 体温 流感 
Zl 是 正常 否 
2 是 高 是 
Ta 是 很 高 是 
4 否 正常 否 
Ts 否 高 否 
Xe 否 很 高 是 
Zr 否 高 是 
Te 否 很 高 否 


由 上 面 的 分 析 和 操作 步骤 .得 到 确定 的 简约 决策 规则 如 下 。 
(头痛 ,是 ) 且 ( 体 温 , 正 常 ) 一 (流感 , 否 ) 
(头痛 ,是 ) 且 ( 体 温 , 高 ) 一 (流感 ,是 ) 
(头痛 ,是 ) 且 ( 体 温 , 很 高 ) 一 (流感 ,是 ) 
(头痛 ,和 否 ) 且 ( 体 温 , 正 常 ) 一 (流感 , 否 ) 


85.3 可 辨识 矩阵 


【定义 8.15】 令 决 策 系统 表 为 一 (U,R,V,f),R 二 PUD 是 属性 集合 . 子 集 P= 二 {a|i 一 
1,2,…,m} 和 DD 二 {qd}) 分 别称 为 条 件 属 性 集 和 决策 属性 集 ,a; (zj;) 是 样本 六 在 属性 a; 上 的 
取 值 。Cp (i, 站 表示 可 辨识 矩 阵 中 第 i 行 第 j 列 的 元 素 , 则 可 辨识 矩阵 Cp 定义 为 

{ar | a € PAar (zxi) 天 ax) dr) 天 CD) 
[9 | 
0,d(zi) = d(xz;) 

其 中 i,j 二 1,2,…,n。 可 辨识 矩阵 是 一 个 依 主 对 角 线 对 称 的 矩阵 ,在 考虑 可 辨识 矩阵 的 
时 候 , 只 需 考虑 其 上 二 角 ( 或 下 三 角 ) 部 分 就 可 以 了 。 

根据 可 辨识 矩阵 的 定义 可 知 , 当 两 个 样本 (实例 ) 的 决策 属性 取 值 相同 时 ,它们 所 对 应 的 
可 辨识 矩阵 元 素 的 取 值 为 0; 当 两 个 样本 的 决策 属性 不 同 且 可 以 通过 某 些 条 件 属性 的 取 值 不 
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同 加 以 区 分 时 ,它们 所 对 应 的 可 辨识 矩阵 元 素 的 取 值 为 两 个 样本 属性 值 不 同 的 条 件 属 性 集合 ， 
即 可 以 区 分 这 两 个 样本 的 条 件 属性 集合 ; 当 两 个 样本 发 生 冲 突 时 , 即 所 有 的 条 件 属性 取 值 相 
同 而 决策 属性 的 取 值 不 同时 , 则 它们 所 对 应 的 可 辨识 矩阵 中 的 元 素 取 值 为 空 集 。 显 然 , 可 辨识 
矩阵 中 元 素 是 否 包含 空 集 可 以 作为 判定 决策 表 系 统 中 是 否 包含 不 一 致 (冲突 ) 信 息 的 依据 。 

在 实际 应 用 中 ,根据 知识 库 构 造 决 策 知 识 信息 表 , 从 此 表 中 得 出 条 件 属性 集合 和 决策 属 
性 ,逐步 构造 出 可 辨识 矩阵 。 利 用 可 辨识 矩阵 简约 属性 一 般 有 如 下 两 步 。 

(1) 根据 知识 库 建立 有 决策 表 , 得 出 可 辨识 矩阵 。 

(2) 扫描 可 辨识 矩阵 , 找 出 其 相对 属性 核 , 得 到 属性 简约 结果 。 

设 有 一 个 关于 气象 信息 的 决策 表 系 统 , 如 表 8.7 所 示 。 


表 8.7 气象 信息 决策 表 


条 件 属性 决策 属性 (d) 
可 见 度 C(Xi ) 温度 (X,) 湿度 (X;) 是 否 大 风 (X,) 
1 Hunny Hot High False N 
区 Sunny Hot High True N 
3 Overcast Hot High False 时 
4 Rain Mild High False i 
5 Rain Cool Normal False 
6 Rain Cool Normal True N 


令 Q 二 {d) 为 决策 属性 集 ,P 二 {zi ,zs ,zx3,T4) 为 条 件 属性 集 ,得 到 可 辨识 矩阵 如 下 。 


0 0 x Xi1T2 T1T2T3 0 
0 zz Din Treryr 0 
0 0 0 1727374 
0 0 2.T3.4 
0 Ta 
0 


通过 分 析 和 矩阵 ,得 出 1C(1,3)| 二 1,1C(5,6)| 二 1, 从 可 辨识 矩阵 中 得 出 属性 核 Corea (P) 一 
{zw )。 将 矩阵 中 包含 核 属 性 的 元 素 值 修改 为 0, 这样 在 存储 矩阵 时 ,可 以 只 存储 不 为 0 的 元 
素 . 这 样 就 大 大 节省 了 存储 空间 ,提高 了 空间 效率 。 修 改 决策 矩阵 中 的 元 素 值 后 得 到 新 的 矩阵 为 


0 0000 0 
0 0 0 0 0 
0 0 0 0 
0 0 0 

0 0 

0 


这 样 , 属 性 简约 的 结果 就 是 (zi 人 zz, )。 


8.6 小 结 


粗糙 集 理论 与 数据 挖掘 的 研究 已 成 为 计算 机 领域 的 一 个 新 热点 ,尤其 是 粗糙 集 理论 与 
方法 研究 ,虽然 在 20 世纪 90 年 代 初 才 被 广泛 关注 ,但 它 的 发 展 却 是 日 新 月 异 , 并 已 经 在 数 
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据 挖掘 、 人 工 智 能 等 很 多 领域 得 到 了 成 功 应 用 。 本 章 通过 汽车 类 型 与 汽车 性 能 关系 的 例子 
引出 了 粗糙 集中 知识 简约 的 问题 。 然 后 详细 介绍 了 粗糙 集 的 相关 概念 ,例如 知识 与 分 类 、 正 
域 ` 负 域 等 ,以 专业 和 国家 政策 对 就 业 的 影响 程度 为 例 说 明了 粗糙 集 的 应 用 。 接 着 介绍 了 辩 
识 知识 的 相关 概念 以 及 简化 过 程 ,包括 知识 的 简化 和 等 价 关 系 的 简化 。 最 后 介绍 了 决策 规 
则 的 简约 过 程 , 以 及 简化 决策 规则 的 直观 有 效 的 工具 一 -辨识 矩阵 。 


8.7 习题 


1. 什么 是 粗糙 集 ?” 在 数据 分 析 中 有 何 作用 ? 

2. 一 个 知识 库 氏 王 (U,R) ,其 中 避 ={zizsyzsyziyzsyzeyzyyzs), 一 个 等 价 关 系 尺 形 
成 的 等 价 类 为 Yi 一 {ziyzzyze), ys 一 {zs), ys 一 (zyzyyze) yi 一 (zs)。X 一 (zayzsyzy)。 
试 求 出 下 近似 集合 和 上 近似 集合 。 

3. 证 明 粗糙 集 的 性 质 之 一 : R (CR-(X)) 一 R_CR-(CX)) 一 R CX)。 

4. 某 个 系统 有 三 个 识别 属性 , 共 含 有 6 个 元 素 , 如 表 8. 8 所 示 。 


表 8.8 某 系统 的 等 价 关系 


对 象 属性 1 取 值 属性 2 取 值 属性 3 取 值 
1 3 
Xe | 1 3 
Xs 2 i 1 
Th 3 2 2 
zs 3 g 1 
Xe 2 和 党 


令 Ri 二 {属性 1) ,R=={ 属 性 2} ,Rs=={ 属 性 3} ,R= {Ri,R;:,R;) , 求 ， 
(1) 由 Ri,R; ,Rs 分 别 形成 的 等 价 划分 。 

(2) 由 尺 形 成 的 等 价 划分 。 

(3) 如 果 外 二 {x ,xs ,Xs), 求 久 相 对 于 R 的 粗糙 度 。 

5. 某 系统 的 对 象 集 、 条 件 属性 和 决策 属性 的 关系 如 表 8. 9 所 示 。 


表 8.9 某 系 统 的 对 象 .条 件 属性 和 决策 属性 


条 件 属性 决策 属性 
对 象 条 件 属性 R， 条 件 属性 R。 决策 属性 1 
Zl I 1 1 
x | 0 2 
Zs 0 2 0 
x4 1 2 0 
Zs 0 0 1 


请 给 出 这 个 系统 的 辨识 矩阵 。 
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神经 网 络 的 研究 内 容 相当 广泛 ,反映 了 多 学 科 交 又 技术 领域 的 特点 。 它 
的 研究 已 经 获得 许多 方面 的 进展 和 成 果 , 提 出 了 大 量 的 网 络 模型 ,发现 了 许 
多 学 习 算 法 ,对 神经 网 络 的 系统 理论 进行 了 成 功 的 探讨 和 分 析 。 


9.1 引 例 


本 节 来 看 一 个 关于 数据 分 析 的 例子 。 假 设 一 个 未 知 的 系统 有 三 个 输入 
和 一 个 输出 。 通 过 实验 ,得 到 了 8 条 数据 ,如 表 9. 1 的 前 8 行 所 示 。 
表 9. 1 的 第 9 行 数据 只 有 输入 ,没有 输出 。 这 行 数据 不 是 通过 实验 获 
得 ,而 是 事先 假设 了 一 组 输入 。 怎 样 才能 推断 这 一 行 数据 的 输入 对 应 的 输出 
数据 呢 ? 可 以 从 前 8 行 分 析 和 发 现 规律 ,然后 进行 预测 。 
表 9.1 一 组 输入 数据 和 输出 数据 


序号 x1 Zz Za y 

1 2.5 3.16 一 9.75 15. 84 
2 3. 4 2:9 10.15 7.31 
3 5.65 3.27 8. 43 24. 30 
4 4.63 8.18 1.67 514.29 
5 一 外 37 一 8.51 之 .73 333.37 
6 一 5.6 3.27 8. 83 281.67 
7 10.17 15.2 0.03 1895. 94 
8 19.1 一 4.8 7.87 27.62 
a 7.32 一 5.69 2.93 


通过 观察 ,从 表 9. 1 中 很 难 总 结 出 数据 输入 和 输出 之 间 的 关系 。 对 于 这 

样 的 问题 ,可 以 用 多 元 线性 回归 分 析 等 技术 手段 来 发 现 其 中 的 规律 ,也 就 是 
在 式 (9-1) 中 确定 4 个 系数 

y= Co 十 Cizl 十 Czzs tt Cars (9-1) 

通过 统计 分 析 工 具 , 可 以 确定 式 (9-1) 中 的 4 个 系数 ,从 而 确定 输入 和 输 
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出 的 近似 关系 ,如 式 (9-2) 所 示 
?一 246.33 十 1.52zi 十 58. 49zs 一 8. 2zs (9-2) 
把 表 9. 1 的 最 后 一 行 输入 数据 代入 式 (9-2) ,可 以 计算 得 到 对 应 的 输出 值 是 286. 64。 这 
个 过 程 实际 上 与 数据 挖掘 的 工作 过 程 相似 : 先 从 数据 中 发 现 规律 ,然后 用 这 个 规律 进行 
预测 。 
上 面 利用 多 元 线性 回归 手段 预测 的 输出 结果 是 否 与 系统 实际 的 输出 结果 一 致 ”其 实 ， 
表 9. 1 中 的 数据 是 根据 式 (9-3) 得 到 的 
(zl 十 xz 一 Zizs)2 十 (zizs + zoxa)’ 
V 旭 十 碍 十 碍 十 (za 一 za 十 zs) 
根据 式 (9-3) ,可 以 计算 出 系统 最 后 一 行 实际 的 输出 值 是 55. 24。 由 此 可 以 看 出 ,利用 
多 元 统计 的 方式 得 到 的 预测 结果 与 系统 的 实际 输出 之 间 的 差异 还 是 比较 大 的 。 
那么 ,还 有 其 他 更 好 的 手段 吗 ? 答案 是 肯定 的 。 我 们 还 可 以 用 多 元 非 线性 回归 手段 发 
现 更 精确 的 近似 模型 。 但 是 ,多 元 线性 回归 要 事先 给 出 问题 的 阶 , 也 就 是 自 变量 的 寡 次 ,这 
需要 操作 人 员 的 经 验 ; 并 且 , 很 多 情况 下 会 出 现 历史 数据 过 度 拟 合 、 但 预测 效果 不 理想 的 
情况 。 
除了 多 元 线性 回归 和 多 元 非 线性 回归 技术 手段 外 ,还 有 一 种 比较 有 效 的 技术 手段 一 
神经 网 络 方法 。 其 实 ,对 于 式 (9-3) 所 描述 的 系统 ,可 以 通过 发 现 输入 和 输出 之 间 的 解析 关 
系 ( 或 近似 解析 关系 ) ,进而 进行 预测 ,就 像 多 元 回归 分 析 所 做 的 。 事 实 上 ,也 可 以 不 知道 输 
入 和 输出 之 间 像 式 (9-2) 那 样 明确 的 解析 关系 ,而 是 只 知道 什么 样 的 输入 对 应 着 什么 样 的 输 
出 。 也 就 是 说 ,在 不 知道 输入 输出 之 间 的 解析 关系 时 .同样 可 以 对 输出 进行 预测 。 神 经 网 络 
是 实现 非 解析 关系 预测 的 主要 手段 之 一 , 它 把 系统 看 作 一 个 黑匣子 ,不 关心 系统 内 部 的 数据 
变换 ,只 关心 系统 的 输入 数据 和 输出 数据 。 相 反 地 ,多 元 回归 分 析 把 系统 看 作 一 个 白 匣子 ， 
试图 找到 其 中 的 数据 解析 变换 。 
本 章 后 面 的 内 容 将 重点 介绍 神经 网 络 的 原理 和 使 用 方式 。 


9.2 ”人工 神经 网 络 


921 人 工 神经 网 络 概述 


神经 网 络 自 1943 年 发 展 到 现在 ,主要 经 历 了 如 下 三 个 阶段 。 

(1) 启蒙 阶段 。 这 是 神经 网 络 理论 研究 的 黄 基 阶段 。1943 年 ,神经 生物 学 家 
MeCulloch 和 青年 数学 家 Pitts 合作 ,提出 了 第 一 个 人 工 神 经 元 模型 ,并 在 此 基础 上 抽象 出 
神经 元 的 数理 模型 ,开创 了 人 工 神经 网 络 的 研究 。 以 他 们 提出 的 人 工 神经 元 数理 模型 (简称 
MP 模型 ) 为 标志 ,神经 网 络 拉 开 了 研究 的 序幕 。1958 年 ,Rosenblatt 在 原 有 MP 模型 的 基 
础 上 增加 了 学 习 机 制 ,提出 了 感知 器 模型 ,首次 把 神经 网 络 理论 付 诸 工程 实现 ,他 的 成 功 之 
举 大 大 激发 了 众多 学 者 对 神经 网 络 的 兴趣 。 另 外 .神经 网 络 模型 还 包含 了 一 些 现代 神经 计 
算 机 的 基本 原理 ,从 而 形成 神经 网 络 方法 和 技术 的 重大 突破 。 神 经 网 络 的 研究 迎 来 了 第 一 
次 高 潮 期 。 

(2) 低潮 时 期 。 人 工 智能 的 创始 人 之 一 Minsky 和 Papert 对 以 感知 器 为 代表 的 网 络 系 
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统 的 功能 及 局 限 性 从 数学 上 做 了 深入 的 研究 ,于 1969 年 出 版 了 狠 动 一 时 的 《Perception》, 指 出 
简单 的 线性 感知 器 的 功能 是 有 限 的 , 它 无 法 解决 线性 不 可 分 的 两 类 样本 的 分 类 问题 ,这 一 论 
断 给 当时 人 工 神 经 元 网 络 的 研究 带 来 沉重 打击 ,由 此 出 现 了 神经 网 络 发 展 史 上 长 达 10 年 的 
低潮 时 期 。 处 于 低潮 的 另外 一 个 原因 是 ,20 世纪 70 年 代 以 来 ,集成 电路 和 微 电 子 技术 的 迅 
独 发 展 ,使 传统 的 Von Neumenn 计算 机 进入 全 盛 时 期 ,基于 逻辑 符号 处 理 方法 的 人 工 智能 
得 到 了 迅速 发 展 并 取得 显著 成 绩 .它们 的 问题 和 局 限 性 尚未 暴露 ,因此 暂时 掩盖 了 发 展 新 型 
计算 机 和 寻求 新 的 神经 网 络 的 必要 性 和 迫切 性 。 

(3) 复兴 时 期 。 这 是 神经 网 络 理论 研究 的 主要 发 展 时 期 。1982 年 ,美国 国家 科学 院 的 
刊物 上 发 表 了 著名 的 Hopfield 模型 的 理论 。 这 个 模型 不 仅 对 人 工 神 经 网 络 信息 存储 和 提 
取 功 能 进行 了 非 线 性 数学 概括 .提出 了 动力 方程 和 学 习 方 程 ,还 对 网 络 算法 提供 了 重要 公式 
和 参数 ,使 人 工 神 经 网 络 的 构造 和 学 习 有 了 理论 指导 。 在 Hopfield 模型 的 影响 下 ,大量 学 
者 又 激发 起 研究 神经 网 络 的 热情 ,积极 投身 于 这 一 学 术 领 域 中 ,神经 网 络 理论 研究 很 快 便 迎 
来 了 第 二 次 高 潮 。20 世纪 90 年 代 中 后 期 ,神经 网 络 研究 步 入 了 一 个 新 的 发 展 时 期 ,一 方 
面 已 有 理论 在 不 断 推广 和 深化 ; 另 一 方面 ,新 的 理论 和 方法 也 从 未 停止 过 其 不 断 开拓 的 
步伐 。 

神经 网 络 可 以 分 为 4 种 类 型 : 前 向 型 .反馈 型 .随机 型 和 自 组 织 竞争 型 。 在 神经 网 络 的 
结构 确定 后 ,关键 的 问题 是 设计 一 个 学 习 速度 快 , 收 敛 性 好 的 学 习 算 法 。 

前 向 型 神经 网 络 是 数据 挖掘 中 广泛 应 用 的 一 种 网 络 , 其 原理 或 算法 也 是 其 他 一 些 网 络 
的 基础 ,本 章 将 重点 介绍 这 种 类 型 网 络 中 的 BP( 反 向 传播 ) 模 型 。 此 外 , 径 向 基 函 数 神经 网 
络 也 是 一 种 前 向 型 神经 网 络 ; Hopfield 神经 网 络 是 反馈 型 网 络 的 代表 ; 模拟 退火 
(Simulated Annealing.SA) 算 法 是 针对 神经 网 络 优化 计算 过 程 的 问题 提出 的 具有 随机 性 质 
的 算法 ; 自 组 织 竞 争 型 神经 网 络 的 特点 是 能 识别 环境 的 特征 并 自动 聚 类 。 本 章 不 对 后 面 这 
几 种 类 型 的 神经 网 络 进行 详 述 。 


922 神经 元 模型 


神经 元 是 神经 网 络 的 基本 计算 单元 ,又 称 为 处 理 单元 或 结 点 。 一 般 是 多 个 输入 、 一 个 输 
出 的 非 线 性 单元 ,可 以 有 一 个 内 部 反馈 和 阔 值 。 图 9. 1 是 一 个 完整 的 神经 元 的 结构 。 

其 中 ,rz ,…'zw 是 输入 ,y 是 输出 ， >) 为 
内 部 状态 的 反馈 信息 和 ,0 为 阔 值 ,F 是 表示 神经 元 己 
活动 的 特性 函数 。 呈 

nn 个 输入 zx1 ,zs，… ,zx, 与 这 个 神经 元 的 作用 强 
度 为 rw ,ws，… ,ro ,， 则 这 个 神经 元 的 综合 输入 为 

Xi = Pwr (9-4) 

通常 神经 元 所 接受 的 输入 信号 的 加 权 总 和 》) 尚 不 能 反映 神经 元 输入 和 输出 之 间 的 真 

实 关系 。 为 此 ,需要 对 综合 输入 进行 必要 的 调整 
X 一 成一 以 (9-5) 

在 对 综合 输入 进行 适当 的 调整 后 ,还 需要 进一步 用 一 个 特性 函数 来 刻画 这 种 关系 ,产生 

一 新 的 输出 
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y= F(X) =F(2wzr;—0:) (9-6) 
根据 输入 输出 特性 的 不 同 , 可 用 不 同 的 特性 函数 表示 ,简单 的 特性 函数 如 下 。 
(1) 分 段 线性 特性 函数 


z= F(X) = kX, (9-7) 
其 中 上 为 常数 。 
(2) 国 值 特性 函数 
1 当 % 0 
2 二 F(X Ss (9-8) 
0 当 XX 过 外 


这 是 最 早 提出 的 一 种 离散 型 的 二 值 函 数 。 
(3) S 型 逻辑 特性 函数 
Xi= F(X;) = (1 二 +e™)-! (9-9) 
这 类 特性 函数 常用 来 表示 输入 和 输出 的 S 型 曲线 关系 ,反映 神经 元 的 “压缩 * 和 “饱和 ” 特 
性 , 即 把 神经 元 定义 为 具有 非 线性 增益 特性 的 电子 系统 。 


923 网 络 结构 


在 分 层 网 络 中 ,神经 元 以 层 的 形式 进行 组 织 。 一 般 的 前 馈 网 络 包括 一 个 输入 层 和 一 个 
输出 层 , 若 干 隐 单 元 。 如 果 没 有 隐 单 元 , 称 为 单 层 前 馈 网 络 , 指 这 个 网 络 是 严格 的 无 圈 的 或 
前 馈 的 , 单 层 指 的 是 神经 元 网 络 只 有 一 个 输出 层 , 如 图 9. 2 所 示 。 

多 层 前 馈 神 经 网 络 如 图 9. 3 所 示 , 指 网 络 有 一 层 或 多 层 隐 藏 结 点 层 , 相 应 的 结 点 称 为 隐 
藏 神 经 元 。 隐 藏 神经 元 的 功能 是 以 某 种 有 用 方式 介入 外 部 输入 和 网 络 输出 之 中 ,提取 高 阶 
统计 特性 。 隐 藏 神经 元 可 以 有 多 层 , 通 常 使 用 一 层 就 可 以 达到 高 质量 的 非 线性 逼近 的 效果 。 


输入 层 隐 层 输出 层 
输入 层 输出 层 


图 9.2 单 层 前 馈 神 经 网 络 图 9.3 多 层 前 馈 神经 网 络 


前 馈 网 络 没 有 反馈 连接 ,没有 动态 记忆 ,本 质 上 是 一 个 非 线 性 静态 映射 网 络 , 因 此 在 表 
示 一 个 动态 系统 时 需 采 用 时 延 的 方法 ,通过 将 多 个 过 去 值 同时 输入 给 网 络 而 将 学 习 系统 在 
时 域 中 的 动态 行为 转换 成 静态 映射 问题 。 用 于 预测 的 神经 网 络 的 性 质 与 网 络 中 单个 神经 元 
的 特性 、 网 络 的 拓扑 结构 和 网 络 参数 有 很 大 的 关系 。 网 络 结构 包括 神经 元 数目 、 隐 含 层 数 目 
与 连接 方式 等 。 对 一 个 给 定 结构 来 说 ,训练 过 程 就 是 调整 参数 以 获得 近似 基本 联系 ,误差 定 
义 为 均 方 根 误差 ,网 络 的 训练 可 视 为 一 个 优化 问题 的 寻 优 过 程 。 

反馈 神经 网 络 和 前 馈 神 经 网 络 的 区 别 在 于 它 至 少 有 一 个 反馈 环 ,可 以 是 自 反馈 环 或 者 


是 非 自 反馈 环 , 其 中 隐藏 神经 元 可 以 是 0 个 或 多 个 。 反 馈 神 经 网 络 的 结构 如 图 9.4 所 示 。 
_ 答 入 层 。” 隐 层 。 ”输出 层 


图 9.4 反馈 神经 网 络 


反馈 神经 网 络 比较 复杂 ,难以 训练 并 发 现 其 稳定 状态 。 实 际 应 用 中 大 多 使 用 前 馈 网 络 。 
前 馈 网 络 的 训练 算法 比较 成 熟 , 其 中 最 著名 的 是 BP 算法。 下 一 节 将 重点 介绍 BP 算法 。 


9.3 ”BP 算法 


多 层 前 馈 神经 网 络 需 要 解决 的 问题 是 学 习 算 法 ,也 就 是 说 ,给 定 一 组 输入 和 对 应 的 输 
出 ,怎样 确定 各 个 神经 元 的 参数 ,使 得 这 个 网 络 能 够 最 大 程度 地 描述 输入 和 输出 之 间 的 关 
系 。 以 Rumelhart 和 McClelland 为 首 的 科研 小 组 提出 的 误差 后 向 传播 (error Back 
Propagation,BP) 算 法 ,为 多 层 前 馈 神经 网 络 的 研究 葛 定 了 基础 。 多 层 前 馈 网 络 能 允 近 任意 
非 线 性 曲线 ,在 科学 技术 领域 中 有 广泛 的 应 用 。 总 之 ,后 向 传播 就 是 神经 网 络 的 一 种 学 习 算 
法 , 它 通过 训练 大 量 的 历史 数据 确定 网 络 中 的 参数 ,从 而 确定 整个 网 络 的 结构 ,为 使 用 神经 
网 络 进 行 数据 预测 葛 定 基础 。 

下 面 用 一 个 简单 的 例子 说 明 BP 算法 的 工作 原理 。 


93.1 网 络 结构 和 数据 示例 


下 面 先 来 观察 图 9. 5 所 示 的 一 个 简单 单 层 前 馈 神经 网 络 的 例子 。 
图 9.5 中 ,两 个 函数 的 定义 如 下 pe Wl 
fiaxonszossa) = arhi 十 zoz 十 a (9-10) > a 
fi,2 Xo» To0,2 0) = zol 十 proz (9-11) x @ fi | 
假设 从 待 研究 的 系统 中 只 获取 了 一 条 训练 数据 (zo.1， 
X023 yiyya) 一 (0.3,1.5; 1.0,0.7)。 这 条 数据 中 ,前 两 
个 数据 是 系统 的 实际 输入 ,后 两 个 数据 是 实际 输出 。 

对 两 个 实际 的 输入 数据 0.3 和 1.5, 如 果 固 定 参 数 a 和 0, 通过 式 (9-10) 和 式 (9-11) , 同 
样 可 以 得 到 两 条 计算 出 的 输出 数据 。 实 际 的 输出 数据 和 计算 得 到 的 输出 数据 之 间 有 一 个 误 
差 , 这 个 误差 反映 了 该 神经 网 络 对 实际 系统 的 逼近 能 力 。 当 误差 大 时 ,网 络 鼻 近 系统 的 能 力 
弱 , 这 意味 着 参数 a 和 4 选取 较 差 ; 当 误 差 小 时 ,网 络 通 近 系 统 的 能 力 强 .这 意味 着 参数 a 
和 2 的 选取 较 好 。 


图 9.5 层 前 馈 网 络 示例 
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取 a,b 的 初始 值 为 a 二 6 二 0, 则 误差 为 
E= (1 一 TD)2 Cy 一 并 02)2 (9-12) 
通过 式 (9-10) 和 式 (9-11) 计 算 zi 和 ya 并 代入 式 (9-12) ,计算 可 得 初始 误差 为 0.41。 下 
面 的 工作 就 是 将 误差 0. 41 尽 可 能 地 缩小 。 
事实 上 , 式 (9-12) 中 的 巨 只 是 参数 a 和 2 的 函数 ,其 他 量 都 是 常数 。 因 此 ,可 以 分 别 求 
得 已 对 参数 和 4 的 偏 导数 
otE_aE.afu 
9a zi ga 
atE atE 。 9fiz 
ab Oi ab 
取 a 王 一 0.165,4 二 0.036( 注 意 ,我 们 取 了 两 个 偏 导 数 相 反 数 的 1/10 作为 参数 的 变 
化 ), 则 误差 变 为 (0. 32): 十 (0. 345): 一 0. 221, 可 见 通 过 训练 使 得 误差 值 减 小 了 。 
上 面 的 例子 中 ,通过 利用 高 等 数学 中 偏 导数 的 性 质 ,让 参数 沿 着 偏 导数 相反 的 方向 变 
化 ,从 而 使 得 网 络 输出 与 系统 实际 输出 的 误差 逐渐 减 小 。 这 种 做 法 只 是 针对 结 点 数量 固定 、 
层 数 固定 、 变 换 函 数 固定 (参数 可 变 ) 的 情况 。 对 一 个 普通 的 多 层 前 馈 网 络 该 怎样 训练 ? 
9. 3.2 节 将 重点 介绍 BP 算法 的 数学 基础 一 一 有 序 导数 。 


932 有 序 导数 


当 自 变量 之 间 又 有 函数 依赖 关系 时 ,普通 的 偏 导数 并 不 能 真正 反映 因 变 量变 化 和 自 变 
量变 化 之 间 的 关系 。 这 时 ,需要 使 用 有 序 导 数 。 
先 看 一 个 例子 : 对 函数 


2zi(Cy 一 zl)(zi 十 1) = 1.635 (9-13) 


2x1,2 (1,2 — TX1,2) Xo,2 一 一 0. 36 (9-14) 


z= g(r,y) 
| (9-15) 
y= f(x) 
因 变 量 x 对 自 变量 x 的 偏 导数 为 
2 一 gE Y) (9-16) 
9r 9r 
根据 链 式 法 则 ,x 的 变化 与 x 的 变化 之 间 的 关系 为 
9t z _ g(x,f(7)) aogCry) 十 3g(Czy) x LD) (9-17) 
az az az 3 一 7 了 3 一 GD) 9x 


式 (9-17) 示 例 了 有 序 导 数 的 计算 方法 ,这 里 不 做 形式 化 的 定义 。 现 在 的 问题 是 : 有 序 
导数 是 否 能 够 真正 反映 因 变 量变 化 和 自 变量 变化 之 间 的 真实 关系 呢 ? 为 此 ,给 出 下 面 的 
例子 


y 三 -f(z) = 让 1 
(9-18) 
z= g(zy) = Xx。 (y+1) 
先 分 别 计算 > 对 x 和 > 的 偏 导 数 
= 一 ?十 1 (9-19) 
让 3 9 
9 BE) 一 > (9-20) 


ay 9y 


第 9 章 神经 网 
但 是 
dy dfx _ 
a a Zr (9-21) 
用 链 式 法 则 求 得 有 序 导数 为 
gat z_ gg(x,f(x)) 9g(Cryy) 十 328g(Czy) x 9f(zx) 
oz 97 9 y=/(D) 9y y=/(7) oz 
= (? 十 1) |,=z+H 十 工 |y=z2H。27r 一 3z2 十 2 (9-22) 


可 以 用 另外 的 方式 计算 = 的 变化 和 z 的 变化 之 间 的 关系 ,以 验证 式 (9-22) 是 否 正确 。 
把 式 (9-18) 中 的 第 一 式 代 入 第 二 式 ,可 得 
z= 二 XxX(y 十 1) = 二 x((x? 十 1) 十 1) 二 x 十 2x (9-23) 
于 是 可 以 直接 求 x 对 x 的 导数 


dy 32+2 (9-24) 
dr 


式 (9-22) 和 式 (9-24) 的 计算 结果 一 致 ,说 明 有 序 导数 的 链 式 法 则 计算 是 合理 的 。 
93.3 计算 误差 信号 对 参数 的 有 序 导 数 


有 序 导 数 可 以 用 来 解决 多 层 前 馈 神经 网 络 的 训练 问题 。 首 先 给 出 一 个 图 9. 6 所 示 的 多 
层 前 馈 神经 网 络 。 


pa A 

m1 © fl A 4 
> fi2 

x © fh2 hl | 一 一 区 2 
NS 
fi2 


第 0 层 。 第 1 层 第 2 层 第 3 层 
图 9.6 多 层 前 馈 神 经 网 络 示例 


对 于 前 馈 神 经 网 络 ,定义 一 条 训练 数据 的 误差 信号 为 


B= Se i tx (9-25) 
其 中 ,Ni 表示 第 工 层 上 结 点 的 总 数 。 如 果 是 多 条 训练 数据 , 则 误差 信号 为 每 一 条 数据 误差 
信号 的 和 。 
定义 误差 信号 对 每 层 输出 的 偏 导数 为 
Ei (9-26) 
误差 信号 对 于 最 后 一 层 输 出 的 有 序 导数 为 
ep = 人 对 3 (9-27) 


其 实 误差 信号 对 于 最 后 一 层 的 有 序 导数 也 就 是 普通 的 偏 导数 ,这 是 因为 误差 信号 与 最 
后 一 层 各 个 输出 之 间 没 有 中 间 变 量 。 
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误差 信号 对 于 倒数 第 二 层 输出 的 有 序 导 数 为 


N, N, 
ot E, RE 9afr 3 fi 
a 。 > 站 (9-28) 
Ee Bzc-iu m=1 Dr Dr-lu D3 QTLLi 
一 般 地 ,误差 信号 对 于 任意 一 层 输出 的 有 序 导数 为 
入 E, 人 ot E, .9fitim 3 9 finim (9-29) 
Re 9zn #1 97zi+Hti 9x1i m=1 Os 9zo 


式 (9-27) 一 式 (9-29) 给 出 了 误差 信号 对 于 某 层 中 的 一 个 输出 的 有 序 导 数 ,而 我 们 需要 
的 是 误差 信号 对 于 某 层 变 换 函 数 中 参数 的 有 序 导数 。 如 果 这 个 导数 被 一 个 结 点 独 有 ,也 就 
是 如 果 这 个 参数 在 整个 网 络 中 只 出 现 一 次 ,那么 误差 信号 对 这 个 参数 的 有 序 导数 为 


-二 2 和 2 2 一 si。 2 (9-30) 
如 果 多 个 结 点 共享 一 个 参数 , 则 信号 误差 对 于 这 个 参数 的 有 序 导 数 为 
HE 3) 中 记 .9[ (s 是 所 有 含有 a 的 结 点 的 集合 ) (9-31) 


ES 

至 此 ,对 于 给 定 的 一 组 训练 数据 ,可 以 计算 信和 号 误差 对 于 任意 参数 的 有 序 导数 , 即 某 个 
参数 的 变化 会 在 多 大 程度 上 影响 信号 误差 。 如 何 改变 参数 ,才能 使 得 信号 误差 下 降 , 从 而 使 
得 神经 网 络 变 得 更 精确 呢 ? 为 此 ,需要 使 用 梯度 下 降 的 方式 。 


934 梯度 下 降 


得 到 了 误差 信号 对 参数 的 有 序 导数 后 ,就 可 以 让 参数 向 着 有 序 导 数 的 负 方 向 变化 ,使 得 
误差 信号 下 降 。 
按照 梯度 最 速 下 降 法 ,参数 a 的 更 新 公式 为 


Au 一 一 SE (9-32) 
其 中 7 为 学 习 速 率 , 可 以 用 下 式 计算 
7= 一 -一 一 (9-33) 
Bs) 


对 任意 的 参数 a 增加 式 (9-32) 计 算 所 得 的 Aa, 就 可 以 使 误差 信号 下 降 。 这 个 步骤 可 以 
一 直 进 行 ,直到 信号 误差 不 能 继续 下 降 为 止 。 

式 (9-33) 中 的 7 不 能 过 大 。 如 果 了 取 值 过 大 ,那么 按照 式 (9-32) 的 方式 移动 解 的 位 置 
得 到 的 误差 可 能 会 增加 ,而 不 是 减 小 。 这 是 因为 , 当 步 长 较 大 时 , 原 解 和 新 解 所 处 位 置 的 有 
序 导数 值 可 能 差别 较 大 。 但 如 果 7 取 值 过 小 ,那么 解 的 移动 会 过 慢 ,影响 了 学 习 的 效率 。 可 
以 赁 经 验 设置 了 的 值 ,也 可 以 用 小 范围 内 的 二 分 法 确定 一 个 合适 的 7。 详 细 方式 请 读者 查 
阅 有 关 文 献 。 


935 BP 算法 描述 


本 节 前 面部 分 内 容 介 绍 了 BP 算法 的 数学 基础 和 一 个 具体 的 运算 示例 。 综 合 前 面 的 内 
容 ,BP 算法 的 步骤 描述 如 图 9.7 所 示 。 
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输入 : 给 定 训练 集 Xe ,其 中 每 一 个 训练 样本 都 是 由 一 组 输入 和 一 组 输出 构成 ,所 有 的 输入 和 输出 都 是 

[0,1] 之 间 的 浮 点 数据 (如 果 不 是 ,要 首先 通过 数据 变换 把 它们 映射 到 [0,1] 区 间 ); 神经 网 络 结构 : 隐 含 

层 结 点 数目 ; 神经 网 络 每 个 结 点 的 、 参 数 化 了 的 特征 函数 。 

输出 : 神经 网 络 每 个 结 点 特征 函数 的 参数 。 

(1) 按照 式 (9-29) 计 算 总 体 误差 对 于 每 个 参数 的 有 序 导数 公式 (函数 ) 。 

(2) 任意 选择 一 组 数据 作为 初始 参数 ,一 般 选取 (0,0,… ,0) ,把 这 组 初始 参数 作为 当前 参数 。 

(3) 根据 当前 参数 和 式 (9-25) 计 算 总 体 误 差 ,如 果 误 差 足 够 小 ,就 把 当前 参数 作为 输出 ,退出 ; 否则 , 继 
续 下 面 的 步骤 。 

(4) 根据 式 (9-31) 和 当前 参数 的 数值 ,计算 总 体 误差 对 于 各 个 参数 的 有 序 导数 的 数值 。 

(5) 按照 式 (9-32) 计 算 各 个 参数 的 增 量 , 并 计算 调整 后 的 参数 大 小 。 把 调整 后 的 参数 作为 当前 参数 , 回 
到 第 (3) 步 。 
需要 注意 的 是 ,第 (5) 步 中 7 值 的 选取 是 依据 经 验 的 ,通常 是 一 个 比较 小 的 值 , 如 0.01 等 。 


图 9.7 BP 算 法 的 操作 步骤 


9.4 SQL Server 2005 中 的 神经 网 络 应 用 


本 节 介 绍 如 何 利 用 SQL Server 2005 中 的 Data Analysis 的 数据 挖掘 功能 ,进行 神经 

络 的 训练 和 预测 。 使 用 的 数据 集 是 表 9. 1 中 列 出 的 数据 。 为 了 应 用 Data Analysis 的 神经 
网 络 预测 功能 ,首先 要 把 数据 导入 到 SQL Server 2005 的 某 个 数据 库 的 数据 表 中 。 为 此 ,在 
计算 机 的 “开始 ”菜单 中 打开 SQL Server 2005 的 SQL Server Management Studio, 出现 
图 9.8 所 示 的 界面 。 
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图 9.8 打开 SQL Server Management Studio 


读者 打开 的 Management Studio 可 能 与 图 9. 8 并 不 相同 ,这 是 因为 SQL Server 的 实例 
在 作者 和 读者 的 机 器 上 可 能 不 尽 相 同 。 

在 图 9. 8 所 示 的 界面 上 右键 单 击 树 形 图 中 的 “数据 库 ? 标 签 ,在 弹出 的 快捷 菜单 中 选择 
“新 建 数 据 库 ” 命 令 。 系 统 会 弹出 一 个 “新 建 数 据 库 ”窗口 ,在 窗口 的 “数据 库 名 称 ” 文 本 框 中 
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填写 数据 库 的 名 称 , 读 者 可 以 给 数据 库 起 一 个 名 字 , 这 里 输入 的 是 NeuralDatabase。 单 击 
“确定 ”按钮 ,新 建 数 据 库 NeuralDatabase 就 会 出 现在 树 形 结构 图 中 。 

单 击 NeuralDatabase 左边 的 “十 ”号 ,其 下 的 结 点 会 扩展 出 来 。 在 其 中 的 “ 表 ” 上 单 击 右 
键 , 从 弹出 的 快捷 菜单 中 选择 “新 建 表 ”命令 ,就 会 出 现 一 个 输入 列 信息 的 子 窗口 。 把 表 9. 1 
中 的 5 个 列 分 别 输入 ,得 到 图 9. 9 所 示 的 界面 。 
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图 9.9 神经 网 络 测试 数据 列 信息 


要 创建 的 数据 表 共 有 5 列 ,与 表 9. 1 中 的 各 个 列 相对 应 。 要 特别 注意 各 个 列 的 类 型 。 
退出 列 编辑 子 窗口 ,接受 默认 的 数据 表 名 称 Table_1. 然 后 在 树 形 结构 中 找到 dbo. Table_1 
并 右 击 ,在 弹出 的 快捷 菜单 中 选择 “打开 表 ” 命 令 ,将 在 界面 右边 出 现 数据 输入 的 子 窗口 。 把 
表 9. 1 中 数据 的 前 8 行 输入 到 表 dbo. Table_1 中 ,如 图 9. 10 所 示 。 


区 


文件 下) 蝙 辑 于 ) 视图 WW) 项目 中 ) 查询 设计 器 EB) 工具 CD) 窗口 和 ) 社区 CC) 帮助 00 
i 总 新 尘 查 询 如 | 六 | 售 镶 芒 | 访 | 区 国 加 | 人防 目 队 防守 
:回转 是 | 图 | 更 -|? 时 |(E | 各 交 s 
” 表 - dbo. Table_1| 丘 要 | 
连接 Q@)， | 对 有 四 了 mark | 和 ] 和 2 x3 ly 
BT GaL Server 9.0.2047 - WIX\Adninistr | 25 3.16 -3.75 15.64 
日 国 数据 库 lz 3.4 2.9 10.15 7.31 
田 国 系 纺 数 据 库 上 
加 加 数据 库 快照 | 日 5.65 3.27 8.43 243 
田 加 ab | 4.63 8.18 1.67 514.29 
日 国 euralDatabase 5 7.37 -8.51 2.71 333,37 
加 让 生 六 和 用 le 5.6 3.27 8.83 281.67 
入 系统 表 7 10.17 15.2 0.03 1895,94 
田 回 bo Tablel 8 19.1 -4.8 7.67 27,62 
H+ PE |#* | MAL MRL ML MAL NL 
i 


图 9.10 神经 网 络 模型 的 测试 数据 


至 此 ,测试 数据 被 输入 到 了 数据 库 中 。 下 面 建立 神经 网 络 模型 来 进行 预测 。 

SQL Server 2005 初次 安装 之 后 ,在 非 英 语 环境 中 使 用 神经 网 络 功能 ,必须 首先 安装 
SQL Server 2005 的 Service Pack 1 补丁 (SP1) ,否则 神经 网 络 模型 不 能 建立 。 

要 安装 SP1 补丁 ,事先 要 到 微软 的 网 站 下 载 该 补丁 ,网 址 是 http://www. microsoft. 
com /downloads/details. aspx? displaylang = zh-cn& FamilyId = CB6C71EA-D649-47FF- 


9176-E7CAC58FD4BC ,该 网 页 上 可 以 下 载 两 个 版 本 的 补丁 ,分 别 是 SQLServer2005SP1- 
KB913090 -x64-CHS. exe 和 SQLServer2005SP1-KB913090-x86-CHS. exe。 前 者 应 用 在 64 
位 机 上 ,后 者 应 用 于 32 位 机 上 。 读 者 可 以 根据 需要 选择 下 载 。 

补丁 下 载 到 本 地 后 ,双击 补丁 文件 ,之 后 选择 默认 选项 即 可 完成 安装 。 安 装 完成 后 要 重 
新 启动 计算 机 ,补丁 才能 生效 。 

补丁 安装 生效 后 ,在 “开始 ”菜单 中 选择 SQL Server Business Intelligence Development 
Studio 命令 ,出现 起 始 页 。 选 择 菜单 中 的 “文件 ”一 “新 建 ” 一 “项目” 命令 ,出 现 新 建 项 目 子 窗 
口 。 其 中 的 项 目 类 型 选择 “商业 职能 项 目 ”. 模 板 选 择 “Analysis Service 项 目 ”. 项 目 名 称 填 
入 NeuralProject。 单 击 “ 确 定 ” 按 钮 ,进入 下 一 步 。 

新 页 面 的 右上 角 是 解决 方案 资源 管理 器 。 布 键 单 击 “ 数 据 源 ” 选 项 ,从 弹出 的 快捷 菜单 
中 选择 “新 建 数据 源 ” 命 令 ,在 出 现 的 窗口 中 单 击 * 下 一 步 "按钮 ,在 新 窗口 “选择 如 何 定义 连 
接 ” 中 单 击 “ 新 建 " 按 钮 ,就 会 出 现 “ 连 接管 理 器 ”窗口 。 

在 “连接 管理 器 "窗口 中 的 “提供 程序 ”下 拉 列 表 框 中 选择 Microsoft OLE DB Provider 
for SQL Server 选项 ,服务 器 名 选择 你 机 器 上 的 实例 ,在 “选择 或 输入 一 个 数据 库 名 ”下 拉 列 
表 框 中 选择 Neural Database 选项 ,也 就 是 存放 测试 数据 的 数据 库 。 选 择 完成 后 , 单 击 “ 确 
定 ” 按 钮 ,进入 下 一 个 界面 。 这 时 ,界面 中 的 “数据 连接 ”列表 就 会 出 现 并 选中 “数据 库 引 擎 实 
例 . NeuralDatabase”, 单 击 “ 下 一 步 ” 按 钮 ,进入 模拟 信息 窗口 ,在 4 个 选项 中 选择 “默认 值 ”， 
并 单 击 “ 下 一 步 ” 按 钮 ,然后 单 击 “ 完 成 ”按钮 ,就 完成 了 数据 连接 工作 。 新 建 的 数据 连接 会 出 
现在 解决 方案 资源 管理 器 的 “数据 源 ” 结 点 下 。 

建立 数据 连接 之 后 ,需要 建立 数据 源 视图 ,否则 数据 挖掘 模型 将 无 法 建立 。 布 键 单 击 解 
决 方案 资源 管理 器 的 “数据 源 视图 ”项 ,在 弹出 的 快捷 菜单 中 选择 “新 建 数 据 源 视 图 ”命令 , 单 
击 * 下 一 步 ” 按 钮 ,之 后 再 单 击 * 下 一 步 ? 按 钮 ,数据库 NeuralDatabase 下 的 数据 表 Table_1 
就 会 出 现在 左边 的 “可 用 对 象 "列表 框 中 。 选 中 这 个 数据 表 , 单 击 “ 之 ”按钮 ,这 个 数据 表 挪 动 
到 右边 “包含 的 对 象 " 列 表 框 中 。 然 后 单 击 * 下 一 步 ? 按 钮 ,并 更 改 数据 源 视图 的 名 称 为 
NeuralView , 单 击 “完成 ”按钮 ,就 完成 了 数据 源 视 图 的 创建 。 

下 面 的 工作 就 是 最 关键 的 一 步 : 建立 挖掘 结构 。 

在 解决 方案 资源 管理 器 中 右键 单 击 * 挖 掘 结 构 ? 项 ,从 弹出 的 快捷 菜单 中 选择 “新 建 挖掘 
结构 "命令 ,在 新 出 现 的 页 面 中 单 击 * 下 一 步 ? 按 钮 。 此 时 ,出 现 的 窗口 让 你 选择 从 什么 数据 
中 定义 挖掘 结构 。 窗 口中 提供 两 种 方式 :“ 从 现 有 关系 数据 库 或 数据 仓库 ”和 “从 现 有 和 多维 
数据 ,由 于 我 们 并 没有 建立 数据 立方 体 . 因 此 选择 前 者 ,并 单 击 * 下 一 步 "按钮 。 

在 弹出 的 新 窗口 “选择 挖掘 技术 ”中 ,在 “您 要 使 用 何 种 挖掘 技术 ?” 下 拉 列 表 框 中 选择 
“Microsoft 神经 网 络 ” 选 项 ,并 单 击 “ 下 一 步 ” 按 钮 。 

在 弹出 的 “选择 数据 源 视图 ”窗口 中 选择 前 面 建立 的 数据 源 视图 NeuralView, 并 单 击 
“下 一 步 ? 按 钮 。 新 出 现 的 窗口 要 求 你 给 出 数据 表 Table_1 的 类 型 ,因为 本 节 只 有 一 个 数据 
表 , 因 此 选择 它 为 "事例 ?类 型 ,而 非 * 嵌 套 ” 类 型 ,并 单 击 “ 下 一 步 ? 按 钮 。 

弹出 的 新 窗口 要 求 你 对 Table_1 中 的 各 个 列 指定 类 型 : 键 类 型 .输入 类 型 .可 预测 类 
型 。 把 数据 表 Table_1 中 的 mark 列 定 为 键 类 型 ,zi ,zz ,zs 规定 为 输入 类 型 ,y 规定 为 可 预 
测 类 型 。 这 些 规定 符合 Table_1 表 的 意义 : mark 列 是 序号 ,用 zi ,zz .zs 三 个 列 预测 > 的 
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值 。 选 择 之 后 的 情形 如 图 9. 11 所 示 。 
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图 9.11 测试 数据 各 列 的 类 型 选择 


在 图 9. 11 中 , 单 击 “ 下 一 步 " 按 钮 ,再 选择 默认 值 , 单 击 “ 下 一 步 "按钮 , 单 击 “完成 "按钮 ， 
就 完成 了 挖掘 模型 的 创建 。 挖 掘 模型 创建 完成 之 后 会 出 现 图 9. 12 所 示 的 窗口 。 
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图 9.12 挖掘 工具 箱 


图 9. 12 所 示 的 窗口 中 ,共有 如 下 5 个 选项 卡 。 

(1) 挖掘 结构 。“ 挖 掘 结构 ”选项 卡 中 给 出 了 刚才 定义 的 数据 源 视 图 。 

(2) 挖掘 模型 。“ 挖 掘 模型 选项 卡 中 给 出 了 数据 表 各 个 列 的 类 型 以 及 选择 了 何 种 模型 
(这 里 是 神经 网 络 模型 ) 。 

(3) 挖掘 模型 查看 器 .“ 挖 掘 模型 查看 器 ?选项 卡 是 最 重要 的 一 个 选项 卡 ,后面 将 单独 
介绍 。 


(4) 挖掘 准确 性 图 表 .“ 挖 掘 准 确 性 图 表 ? 选 项 卡 是 通过 历史 数据 验证 的 我 们 所 选 模型 
的 准确 程度 。 

(5) 挖掘 模型 预测 。 我 们 将 在 “挖掘 模型 预测 选项 卡 中 进行 数据 预测 。 

其 中 ,(3) 和 (5) 是 我 们 要 使 用 的 功能 。 

选择 “挖掘 模型 查看 器 "选项 卡 , 会 弹出 一 个 小 窗口 ,提问 “服务 器 内 容 似乎 已 过 时 。 是 
否 先生 成 和 部 署 项 目 ?” 单 击 “ 是 ”按钮 ,系统 将 花费 一 点 时 间 进 行 部 署 和 生成 。 

部 署 成 功 以 后 ,就 会 弹出 另外 的 一 个 小 窗口 ,提问 “必须 先 处 理 Table_1 挖掘 模型 才能 
浏览 其 内 容 。 处 理 模 型 可 能 要 花费 一 些 时 间 , 具 体 将 取决 于 数据 量 。 是 否 继续 ?” 单 击 “ 是 ” 
按钮 ,并 在 新 弹出 的 窗口 中 单 击 “ 运 行 ” 按 钮 ,处 理 成 功 后 在 两 个 窗口 中 分 别 单 击 “ 关 闭 ” 按 
钮 ,就 会 得 到 图 9. 13 所 示 的 数据 分 析 图 表 。 
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图 9.13 数据 分 析 图 表 


在 图 9. 13 所 示 的 窗口 中 ,黑色 的 条 块 表示 输入 变量 在 某 个 范围 内 取 值 对 输出 变量 将 处 
在 哪个 区 间 的 影响 程度 。 如 果 把 鼠标 置 于 某 个 条 块 上 ,还 将 出 现 一 些 值 ,表示 输入 变量 取 某 
个 区 间 的 值 时 ,输出 变量 处 于 某 个 区 间 的 概率 。 从 图 9. 13 所 示 的 窗口 中 ,不 难看 出 某 个 输 
人 变量 在 某 个 区 间 中 对 结果 贡献 的 重要 程度 。 

最 后 ,选择 “挖掘 模型 预测 ”选项 卡 , 进 行 数据 预测 。 出 现 的 界面 如 图 9. 14 所 示 。 

在 图 9. 14 所 示 的 界面 中 , 单 击 “ 选 择 事例 表 ” 按 钮 ,在 选择 导航 中 选择 事例 表 为 Table_ 
1, 将 出 现 图 9.15 所 示 的 界面 。 

在 图 9.14 所 示 的 结构 中 , 单 击 工具 栏 上 的 “单独 查询 ”按钮 (挖掘 模型 窗口 上 面 左边 
第 3 个 图 标 按钮 ,鼠标 放 在 其 上 时 ,会 出 现 “ 单 独 查询 ”提示 ), 即 产生 图 9. 16 所 示 的 
界面 。 

在 图 9.16 所 示 的 界面 中 ,把 表 9. 1 中 数据 的 最 后 一 行 分 别 输入 到 变量 ri ,zz ,zs 后 面 
的 空白 中 ,然后 把 挖掘 模型 下 的 Y 项 拖 动 至 最 下 面 一 行 的 最 左边 的 位 置 。 然 后 单 击 工具 栏 
上 的 “切换 到 查询 结果 ”按钮 ,会 出 现 图 9. 17 所 示 的 界面 。 
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T 


图 9.15 选择 事例 表 


从 预测 结果 中 得 知 ,Y 的 预测 值 是 69. 81, 它 虽然 与 实际 值 55. 24 有 一 定 的 差距 ,但 比 
使 用 多 元 线性 回归 得 到 的 结果 (286. 64) 好 得 多 。 事 实 上 ,如果 已 知 数据 不 是 8 条 ,而 是 超过 
200 条 ,那么 使 用 神经 网 络 预测 该 问题 的 结果 会 相当 精确 ,而 多 元 线性 回归 将 不 会 有 大 的 进 


TaLEEOJect 网 ort CE 


E 转 -~ 回 轩 | 关 且 恩 | 口 -| |Develoment ~ 已 写 关 因 吕 > 局 


Ne 1Crosort Yisual Studio 
文件 到 ) 编辑 上 E) 视图 WD 项 目 邓 ) 生成 调式) 数据 库 以) 挖 据 模 型 如 ”工具 CI) 窗口 ) 社区 C) 帮助 0 


中 “Table 1. dme [设计 ]| eralyiew dsv [设计 ] | 起 妈 页 | 


古 - 加 上 加]3 


医 \ 挖掘 结构 | 人 挖掘 模型 | 志 挖 据 模型 查看 器 “| . 司 挖 据 准 确 性 图 表 “| 二 挖 据 模型 预测 


时 
的 .810755493553927 


图 9.17 神经 网 络 预测 结果 


步 。 造 成 这 种 结果 的 原因 是 神经 网 络 模型 能 逼近 任意 高 阶 非 线性 的 映射 ,而 多 元 线性 回归 
只 能 找到 一 阶 的 规律 。 有 兴趣 的 读者 可 以 尝试 扩大 已 知 数据 规模 ,重新 建立 模型 并 预测 , 验 


证 神经 网 络 预测 该 问题 的 准确 性 。 


9.5 小 结 


神经 网 络 可 以 学 习 高 度 非 线性 的 系统 ,并 且 用 学 习 得 到 参数 和 系统 进行 系统 的 从 输入 
到 输出 的 预测 。 但 是 ,神经 网 络 需要 很 长 的 学 习 时 间 , 才 能 把 网 络 中 的 参数 训练 出 来 。 因 
此 , 它 仅 适用 于 时 间 容 许 的 应 用 场合 。 男 外 ,神经 网 络 中 各 个 结 点 之 间 的 连接 权 值 对 使 用 者 


来 说 几乎 是 无 法 看 出 其 中 意义 的 ,是 不 可 理解 的 。 因 此 ,神经 网 络 系统 是 一 个 “ 黑 


臣子 "。 这 


与 我 们 之 前 学 习 的 “和 白 匣子 ? 贝 叶 斯 网 络 恰好 是 相对 的 。 虽 然 不 能 理解 网 络 内 部 的 连接 权 


值 ,但 这 并 不 妨碍 我 们 利用 神经 网 络 进行 高 质量 的 预测 操作 。 
利用 神经 网 络 软 件 包 进行 分 析 和 预测 工作 时 ,用 户 所 需要 的 预 处 理 是 比较 少 


的 ,对 系统 


的 了 解 要 求 也 是 比较 低 的。 因此 ,神经 网 络 有 着 大 量 的 应 用 。 我 们 在 掌握 神经 网 络 原理 的 
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基础 上 要 熟练 掌握 相应 的 软件 包 , 熟 练 掌握 对 它 的 应 用 。 需 要 重点 注意 的 问题 是 : 使 用 
SQL Server 2005 进行 神经 网 络 模型 的 建立 和 预测 工作 之 前 ,要 首先 安装 补丁 Service 
Pack 1 。 


9.6 习题 


1. 前 馈 网 络 和 递归 网 络 有 什么 本 质 区 别 ? 

2. 多 层 前 馈 网 络 中 隐藏 层 神经 元 的 作用 是 什么 ? 

3. 在 BP 算法 中 ,总 体 误差 对 网 络 输出 的 偏 导数 和 有 序 导 数 是 否 一 致 ? 总 体 误差 对 网 
络 输入 的 偏 导 数 和 有 序 导数 是 否 一 致 ? 

4. 从 一 个 3 输入 .2 输出 的 系统 中 获取 了 10 条 历史 数据 ,如 表 9. 2 所 示 。 另 外 ,最 后 2 
条 数据 是 系统 的 输入 ,不 知道 其 对 应 的 输出 。 请 使 用 SQL Server 2005 的 神经 网 络 功能 预 
测 最 后 两 条 数据 的 输出 。 


表 9.2 一 个 3 输入 .2 输出 的 系统 的 输入 .输出 数据 


数据 输入 1 输入 2 输入 3 输出 1 输出 2 
7.44 19. 96 35. 86 8. 27 4.71 19. 96 
5. 51 19. 00 36.79 8.54 3.82 19.00 
和 加 20.06 34.74 8.06 4.87 20. 06 
7.31 18.72 34. 65 8. 22 4. 56 18.72 
6. 11 20. 42 30. 16 7.04 4.07 20.42 
5.43 17.08 34.22 8.35 3.68 17.08 
Sel 17.38 36. 41 8.76 3.84 17.38 
5.80 19.53 35. 72 8.24 3.97 19.53 
6.51 19. 96 36.09 8.27 4.32 19. 96 
7. 46 20. 09 37. 30 8. 52 

5. 18 19. 35 32. 22 7.55 


CHAPTER,M 


遗传 算法 第 10 章 


遗传 算法 是 一 种 基于 达尔 文 进化 论 的 并 行 、 随 机 的 搜索 算法 。 它 利用 群 
体 搜索 技术 ,每 个 种 群 代表 一 组 问题 的 解 ,通过 对 当前 种 群 进行 选择 、 交 又 和 
变异 等 一 系列 遗传 操作 ,从 而 产生 新 一 代 的 种 群 ,并 利用 优胜 劣 汰 机 制 逐 步 
使 种 群 进化 到 包含 近似 最 优 解 的 状态 。 遗 传 算法 思想 简单 ,易于 实现 并 具有 
良好 的 鲁 棒 性 ,可 应 用 于 多 个 领域 。 例 如 优化 和 搜索 、 机 器 学 习 、 智 能 控制 、 
模式 识别 和 人 工 生命 等 领域 都 可 以 使 用 遗传 算法 解决 问题 。 


10.1 概述 


遗传 算法 (genetic algorithms,GA) 是 一 种 有 效 的 全 局 搜索 方法 ,是 一 种 
基于 达尔 文 自然 选择 和 遗传 变异 等 生物 进化 机 制 而 发 展 起 来 的 仿生 算法 。 
根据 达尔 文 的 进化 论 , 生 物种 群 从 低级 、 简 单 的 类 型 逐渐 发 展 成 为 高 级 、 复 杂 
的 类 型 。 各 种 生物 要 生存 下 去 就 必须 进行 生存 斗争 .具有 较 强 生存 能 力 的 生 
物 个 体 容易 存活 下 来 ,并 有 较 多 的 机 会 产生 后 代 ; 具有 和 较 低 生 存 能 力 的 个 体 
则 被 淘汰 ,或 者 产生 后 代 的 机 会 越 来 越 少 , 直 至 消亡 。 这 种 现象 被 称 之 为 “ 自 
然 选择 , 适 者 生存 "”。 这 一 关于 生物 进化 的 研究 结论 ,已 得 到 广泛 的 接受 和 
应 用 。 

1975 年 ,美国 教授 John. H. Holland 等 人 基于 进化 论 共 同 研究 了 具有 开 
创意 义 的 遗传 算法 理论 和 方法 。 遗 传 算法 是 一 种 借鉴 生物 界 自然 选择 .遗传 
变异 机 制 和 进化 机 制 发 展 起 来 的 高 度 并 行 、 随 机 、 自 适应 的 搜索 算法 。 简 单 
而 言 , 它 使 用 了 群体 搜索 技术 .将 种 群 代表 一 组 问题 解 ,通过 对 当前 种 群 施 加 
选择 、 交 又 和 变异 等 一 系列 遗传 操作 ,从 而 产生 新 一 代 的 种 群 ,并 逐步 使 种 群 
进化 到 包含 近似 最 优 解 的 状态 。 遗 传 算法 能 够 解决 传统 方法 难以 求解 的 许 
多 复杂 优化 问题 。 

遗传 算法 自问 世 以 来 不 断 地 扩展 其 应 用 领域 ,人 们 已 有 效 地 把 其 应 用 于 
许多 领域 的 实际 问题 ,如 函数 优化 、 自 动 控制 ,图像 识别 和 机 器 学 习 等 。 目 
前 ,遗传 算法 作为 高 性 能 优化 方法 逐渐 成 熟 起 来 。 但 是 ,遗传 算法 也 存在 很 
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多 问题 ,如 理论 不 完善 ,存在 早 成 熟 收敛 及 收敛 速度 慢 等 缺点 。 


10.2 ”相关 概念 


在 遗传 算法 中 ,借用 了 很 多 生物 学 中 的 概念 ,引申 到 遗传 算法 中 的 相关 概念 如 下 。 

【定义 10. 1】 基因 。 

基因 (gene) 是 基本 的 遗传 单位 。 在 生物 学 与 遗传 算法 中 ,基因 都 是 个 体 的 基本 组 成 
单元 。 
【定义 10.2】 个 体 。 

在 生物 学 中 ,个 体 (individual) 由 多 个 基因 组 成 。 在 遗传 算法 中 :个体 代表 待 优化 问题 
的 一 个 解 。 

【定义 10.3】 编码 与 解码 。 

将 问题 的 解 转换 成 基因 序列 的 过 程 称 为 编码 (encoding) ,编码 是 由 问题 空间 到 遗传 算 
法 空间 的 映射 。 反 之 ,将 基因 转换 成 问题 的 解 的 过 程 称 为 解码 (decoding)。 在 遗传 算法 中 
首先 需要 将 问题 的 解 编码 成 基因 序列 ,在 需要 确定 个 体 优 劣 时 ,再 将 其 解码 到 解 空间 进行 评 
估 。 遗 传 算法 的 一 个 特点 是 它 只 在 遗传 基因 空间 对 个 体 执行 各 种 遗传 操作 ,而 在 解 空间 对 
解 进行 评估 和 选择 。 

对 于 不 同 的 问题 ,个 体 的 编码 方案 可 能 有 很 大 的 差异 ,因此 个 体 的 表现 形式 也 各 不 相 
同 , 个 体 的 编码 方案 还 可 能 直接 影响 到 遗传 算法 的 求解 效果 。 因 此 ,个 体 编码 方案 的 设计 、 
选择 是 遗传 算法 设计 中 的 重要 一 环 ,也 是 遗传 算法 的 一 个 重要 的 创新 点 。 

【定义 10.4】 种 群 。 

生物 的 遗传 进化 不 能 仅 通过 自身 进行 ,而 需要 在 一 个 群体 中 进行 ,这 一 群体 称 为 种 群 
(population)。 种 群 中 的 单个 组 成 元 素 是 个 体 。 在 遗传 算法 运行 时 ,都 同时 存在 多 个 个 体 ， 
代表 问题 的 多 个 解 。 种 群 规模 是 遗传 算法 的 参数 之 一 ,种 群 规模 的 设置 可 能 会 影响 到 遗传 
算法 的 优化 效果 。 种 群 规模 太 小 , 则 种 群 缺 乏 多 样 性 ,从 而 影响 到 遗传 算法 全 局 搜索 的 能 
力 ; 种 群 规模 太 大 , 则 遗传 算法 易 退 化 成 随机 搜索 。 种 群 规模 的 设置 与 优化 的 问题 .问题 的 
规模 和 遗传 算法 本 身 都 有 关系 。 

【定义 10.5】 适应 度 。 

在 研究 自然 界 中 生物 的 遗传 与 进化 现象 时 ,生物 学 中 使 用 适应 度 (fitness) 这 个 术语 来 
衡量 某 个 物种 对 于 生存 环境 的 适应 程度 。 对 生存 环境 适应 度 较 高 的 物种 将 获得 更 多 的 繁衍 
机 会 ; 而 对 生存 环境 适应 度 较 低 的 物种 ,其 繁衍 机 会 较 少 .甚至 逐渐 消失 。 在 遗传 算法 中 ， 
适应 度 被 用 来 度量 个 体 的 优 劣 程度 。 越 接近 最 优 解 , 其 适应 度 越 高 ; 反之 ,其 适应 度 越 低 。 

【定义 10.6】 代 。 

在 生物 的 繁衍 过 程 中 ,个 体 从 出 生 到 死亡 即 为 一 代 (generation) ,在 遗传 算法 中 , 代 的 意 
思 为 遗传 算法 的 近代 次 数 。 可 以 指定 遗传 算法 运行 时 的 最 大 迭代 次 数 , 即 代 数 可 作为 遗传 
算法 的 一 个 结束 标志 。 

【定义 10.7】 遗传 算 子 。 

遗传 算 子 (genetic operators) 是 指 作用 在 个 体 上 的 各 种 遗传 操作 。 虽 然 在 遗传 算法 的 
发 展 过 程 中 产生 了 一 些 特殊 的 遗传 算 子 ,例如 免疫 算 子 .但 是 几乎 所 有 遗传 算法 中 都 包含 三 
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种 基本 的 遗传 算 子 : 选择 算 子 (selection operator) 交叉 算 子 和 变异 算 子 。 

【定义 10. 8】 选择 算 子 。 

在 生物 的 遗传 进化 过 程 中 ,对 生存 环境 适应 度 较 高 的 个 体 将 有 更 多 机 会 遗传 到 下 一 代 ; 
而 对 生存 环境 适应 度 较 低 的 个 体 ,其 个 体 遗 传 到 下 一 代 的 机 会 也 较 少 ,此 即 生 物 界 中 的 “ 优 
胜 劣 汰 、 适 者 生存 ”的 自然 选择 (selection)。 在 遗传 算法 中 ,选择 算 子 模 拟 了 生物 界 的 自然 
选择 过 程 。 所 谓 选择 算 子 (selection operator) ,是 指 在 适应 度 的 基础 上 ,按照 某 种 规则 或 方 
法 从 当前 代 的 种 群 中 选择 出 一 些 适应 度 高 的 个 体 遗 传 到 下 一 代 种 群 中 。 

目前 常用 的 选择 方法 有 轮 盘 赌 方法 、 最 佳 个 体 保留 法 ,期 望 法 截断 选择 法 和 竞争 法 等 。 

【定义 10.9】 交叉 算 子 。 

有 性 生殖 生物 在 繁殖 下 一 代 时 ,两 个 同 源 个 体 之 间 通 过 交叉 (crossover) 而 重组 , 亦 即 
两 个 个 体 的 某 一 相同 位 置 处 基因 被 切断 。 其 前 后 两 串 分 别 交 叉 组 合 形成 两 个 新 的 个 体 。 

在 遗传 算法 中 ,交叉 算 子 (crossover operator) 是 指 以 某 一 概率 ( 称 为 交叉 概率 ) 选 择 种 
群 中 的 个 体 , 把 两 个 父 个 体 的 部 分 基因 加 以 替换 .重组 而 生成 新 的 个 体 。 交 叉 的 作用 是 为 了 
获得 新 的 更 好 的 个 体 ( 即 待 优化 问题 更 好 的 解 ) 。 

【定义 10. 10】 变异 算 子 。 

生物 学 中 的 变异 (mutation) 是 指 在 细胞 进行 复制 时 可 能 以 很 小 的 概率 产生 某 些 复制 
差 , 从 而 使 基因 发 生 某 种 变化 ,产生 出 新 的 个 体 ,这 些 新 的 个 体 表现 出 新 性 状 。 

在 遗传 算法 中 ,变异 算 子 (mutation operator) 是 指 以 某 一 概率 ( 称 为 变异 概率 ) 选 择 种 
群 中 的 个 体 ,改变 其 个 体 中 某 些 基 因 的 值 或 对 其 个 体 进行 某 种 方式 的 重组 (例如 改变 基因 的 
排列 顺序 )。 变 异 算 子 使 遗传 算法 具有 局 部 的 随机 搜索 能 力 ,还 能 使 遗传 算法 有 机 会 跳出 局 
部 最 优 解 , 从 而 获得 更 好 的 全 局 优化 能 力 。 交 叉 算 子 需要 两 个 父 个 体 作为 输入 ,其 输出 可 以 是 
两 个 子 个 体 ,也 可 以 是 一 个 子 个 体 ; 而 变异 算 子 只 作用 于 一 个 父 个 体 , 并 输出 一 个 子 个 体 。 

交叉 算 子 与 变异 算 子 所 采用 的 具体 算法 与 个 体 编码 方案 有 密切 的 关系 。 对 于 同一 个 待 
优化 问题 ,如 果 采 用 的 个 体 编码 方案 不 同 , 交 叉 算 子 与 变异 算 子 的 具体 算法 可 能 有 很 大 的 
不 同 。 


10.3 基本 步骤 


103.1 概述 


遗传 算法 在 设计 时 需要 考虑 以 下 几 个 问题 。 

(1) 确定 编码 方式 ,以 便 对 问题 的 解 进行 编码 , 即 用 个 体 表 示 问 题 的 可 能 解 。 

(2) 确定 种 群 大 小 规模 。 

(3) 确定 适应 度 函 数 , 决 定 个 体 适应 度 的 评估 标准 。 

(4) 确定 选择 的 方法 及 选择 率 。 

(5) 确定 交叉 的 方法 及 交叉 率 。 

(6) 确定 变异 的 方法 及 变异 率 。 

(7) 确定 进化 的 终止 条 件 。 

虽然 在 实际 应 用 中 遗传 算法 的 形式 出 现 了 不 少 变形 ,但 这 些 遗 传 算法 都 有 共同 的 特点 ， 
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即 通过 对 自然 界 进 化 过 程 中 自然 选择 交叉、 变异 机 理 的 模仿 ,来 完成 对 最 优 解 的 搜索 过 程 。 
基于 这 个 共同 的 特点 ,Goldberg 总 结 了 一 种 统一 的 最 基本 的 遗传 算法 ,该 算法 被 称 为 基本 
遗传 算法 (simple genetic algorithm,SGA) 。 

SGA 只 使 用 了 选择 算 子 .交叉 算 子 和 变异 算 子 这 三 种 遗传 算 子 ,其 结构 简单 ,易于 理 
解 ,是 其 他 遗传 算法 的 委 形 和 基础 。 

确定 好 上 述 参数 和 方法 后 .如 图 10. 1 所 示 ,遗传 算法 的 基本 步骤 如 下 。 

SGA 的 基本 流程 如 下 。 

(1) 初始 化 ,产生 初始 种 群 。 

(2) 个 体 评 价 , 即 计算 种 群 中 每 个 个 体 的 适应 度 。 

(3) 按 选 择 概率 Ps ,执行 选择 算 子 ,从 当前 种 群 中 选择 部 分 个 体 进 入 下 一 代 种 群 。 

(4) 按 交叉 概率 Pc ,执行 交叉 算 子 。 

(5) 按 变 异 概率 Pm, 执 行 变异 算 子 。 

(6) 若 满足 设 定 的 终止 条 件 , 则 输出 种 群 中 适应 度 最 优 的 个 体 作为 问题 的 最 优 解 或 满 
意 解 ,否则 执行 第 (2) 步 。 


开始 
初始 种 梧 
se 
评估 适应 度 |- 产生 新 一代 |- 复 币 |! 
上 交叉 | 
下 和 -| [二 证 


图 10.1 基本 遗传 算法 基本 步骤 


1032 引 例 


下 面 以 遗传 算法 解决 一 个 简单 的 函数 优化 问题 为 例 ,引入 遗传 算法 的 相关 概念 。 函 数 

优化 问题 通常 指 求 函数 的 最 大 值 或 最 小 值 。 待 优化 的 目标 函数 如 下 
f(x)=zx: zx€ [0,31] 

求 该 函数 的 最 小 值 . 即 需 要 先 求 得 在 [0.31] 区 间 内 的 哪个 x 值 可 以 使 y 值 最 小 。 

(1) 首先 确定 编码 方式 。 

编码 方式 跟 解 空间 形式 和 大 小 、 要 求 的 精度 都 有 关系 ,通常 采用 二 进 制 编码 。 本 例如 果 
只 要 求 精 度 是 整数 即 可 , 则 问题 的 解 来 自 0 一 31 之 间 的 某 个 整数 。 

编码 就 是 要 将 每 个 可 能 的 解 转换 成 二 进 制 数 . 以 便 进行 遗传 操作 。 每 个 二 进 制 位 是 0 
或 1, 就 是 基因 。 对 应 于 解 空间 32 种 情况 ,需要 5 位 二 进 制 数 表示 所 有 可 能 解 的 集合 。 基 
因 序 列 过 00000 二 对 应 于 端点 0; 序列 二 11111 二 对 应 于 另 一 个 端点 31。 例 如 整数 4 被 编码 
为 00100 ,这 个 过 程 就 是 编码 过 程 。 
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如 果 要 求 每 个 解 精确 到 小 数 点 后 3 位 , 则 应 该 将 闭 区 间 [0,31] 划 分 为 32X10? 等 份 。 
则 所 需 的 基因 序列 长 度 就 至 少 是 15 位 ,因为 
25 一 32 768 之 32X10? 
(2) 设 定 种 群 规 模 为 4, 即 每 代 种 群 中 包含 4 个 个 体 。 
(3) 适应 度 函 数 可 以 直接 选用 目标 函数 f(x) 衡量 个 体 。 
(4) 选择 操作 采用 适应 度 比例 选择 法 ,按照 个 体 适 应 度 在 适应 度 总 和 中 占有 的 概率 决 
定 该 个 体 被 选择 进入 下 一 代 的 概率 ,公式 如 下 
GE 
>) zi) 
(5) 采用 单 点 交叉 方法 ,交叉 概率 设置 为 1.0。 即 所 有 个 体 都 作为 交叉 操作 的 父 体 ,两 
两 进行 交叉 。 
(6) 变异 率 设 置 为 0. 1 ,终止 条 件 设 定 为 进化 50 代 后 停止 。 
(7) 设 定好 上 述 方法 和 参数 后 ,随机 产生 初始 种 群 ,如 表 10. 1 所 示 。 


表 10.1 初始 种 群 
个 体 六 个 体 基 因 序列 对 应 的 解 zx; 
而 01110 14 
Zs 11000 24 
x 10001 17 


zh 00111 
(8) 计算 初始 种 群 中 个 体 适应 度 ,并 根据 选择 算法 决定 每 个 个 体 出 现在 下 一 代 中 的 个 数 。 
被 选择 的 个 体 将 出 现在 下 一 步 交叉 运算 的 候选 里 ,组 成 了 交配 池 。 适 应 度 计算 如 表 10.2 所 示 。 
表 10.2 适应 度 计算 


对 应 的 解 zx 适应 度 fitCzi) fi/2f 选择 个 数 
14 196 0.18 1 
24 576 0. 52 2 
好 289 0. 26 
7 49 0.04 0 


(9) 根据 交叉 概率 1. 0 和 单 点 交叉 原则 ,对 于 每 两 个 个 体 进行 交 。_ 父 代 了 代 
又 操作 ,即将 交叉 点 后 的 个 体 基因 片断 互 换 。 例 如 ,个 体 二 01110 之 |%110 01000 
与 个 体 二 11000 过 在 第 2 个 基因 处 单 点 交叉 会 产生 新 的 个 体 | 下 000 11110 
01000 二 和 <11110 二 ,如 图 10. 2 所 示 。 单 点 交叉 后 的 结果 如 图 10 8 单 点 交叉 
表 10. 3 所 示 。 


表 10.3 交叉 运算 


交配 池 交叉 点 下 一 子 代 入 FC 
01110 2 01000 8 64 
11000 2 11110 30 900 
11000 4 11001 25 625 
10001 4 10000 16 256 
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(10) 根据 变异 概率 0. 1 和 基因 总 数 4X5=-20 可 知 .被 变异 基因 个 数 为 20X0.1=2。 
如 发 生变 异 01000 一 01001,10000 一 10010., 则 第 一 代 种 群 如 表 10. 4 所 示 。 


表 10.4 第 一 代 种 群 


个 体 xz 个 体 基因 序列 对 应 的 解 zx 
zl 01001 9 
了 11110 30 
Zs 11001 25 
EE 10010 18 


(11) 产生 了 第 一 代 种 群 后 ,由 于 进化 终止 条 件 没有 满足 ,所 以 继续 重复 上 述 步 又 ,进行 
适应 度 计算 .选择 ,交叉 和 变异 操作 ,产生 下 一 代 。 直 到 第 50 代 , 算 法 结束 , 选 出 其 中 的 最 优 
个 体 作为 最 终 解 。 


10.4 算法 设计 


遗传 算法 的 设计 主要 有 5 大 要 素 : 编码 方式 ,种群 规模 的 设 定 、 适 应 度 函 数 的 设计 、 遗 
传 算 子 的 设计 和 终止 条 件 的 设 定 。 


104.1 编码 方式 


当 用 遗传 算法 求解 问题 时 ,必须 在 问题 空间 和 对 遗传 算法 的 个 体 基因 结构 之 间 建 立 联 
系 , 即 确定 编码 和 解码 的 方法 。 一 般 来 说 ,由 于 遗传 算法 计算 过 程 的 鲁 棒 性 , 它 对 编码 的 要 
求 并 不 苛刻 ,但 编码 的 策略 对 于 遗传 算 子 ,尤其 是 对 交叉 和 变异 算 子 的 功能 和 设计 有 很 大 的 
影响 。 

编码 方式 一 般 应 满足 以 下 三 个 规则 。 

(1) 完备 性 : 原 问题 空间 中 的 点 都 能 成 为 编码 后 的 点 。 

(2) 健全 性 : 编码 后 的 空间 中 的 点 能 对 应 原 问题 空间 所 有 的 点 。 

(3) 非 元 余 性 : 编码 前 后 空间 的 点 一 一 对 应 。 

在 实际 操作 中 ,二 进 制 编码 是 最 基本 的 编码 方式 .其 应 用 范围 非常 广泛 。 除 了 二 进 制 纺 
码 之 外 ,还 有 各 种 其 他 的 编码 形式 .如 实数 编码 十进制 编码 、 字 符 编码 和 树 编码 等 。 


1. 二 进 制 编码 


二 进 制 编码 方式 是 最 常用 的 一 种 编码 方式 。 它 以 二 值 符号 集 {0,1) 为 编码 字符 集 , 所 构 
成 的 个 体 基 因 序 列 是 一 个 二 进 制 符号 串 。 例 如 ,1001001 是 一 个 长 为 7 的 个 体 。 
染色 体 的 长 度 与 问题 所 要 求 的 求解 精度 有 关 。 假 设 某 参数 x 的 取 值 范围 是 Lzun， 
Zoux] ,编码 长 度 为 ,计算 精度 为 &, 则 二 进 制 编码 可 使 00…000 对 应 于 zmn,111…111 对 应 
于 zmax ,000…001 对 应 于 zmin 十 d。 故 有 
d= 
二 进 制 编码 简单 易 行 ,便于 进行 遗传 操作 。 
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2. 实数 编码 


对 于 一 些 精 度 要 求 高 的 多 元 连续 函数 优化 问题 ,二 进 制 编码 不 够 直观 ,而 且 基因 序列 太 
长 而 导致 遗传 算法 训练 的 解 空间 过 大 。 这 时 可 使 用 实数 编码 。 实 数 编码 中 ,个 体 的 每 个 基 
因 都 是 一 个 自 变量 ,并 用 某 一 范围 内 的 一 个 实数 来 表示 ,编码 长 度 取决 于 自 变 量 的 个 数 。 

例如 , 若 某 一 个 优化 问题 含有 三 个 自 变 量 x; ,i 一 1,2,3, 每 个 自 变 量 都 有 其 对 应 的 上 下 
限 Lziaan ;zimaxj]， 则 某 个 个 体 可 以 表示 为 z+ 二 二 3. 40,6. 25,7. 43 二 。 

在 实数 编码 方式 中 ,必须 保证 基因 值 在 给 定 的 区 间 限 制 范围 内 ,遗传 算法 中 所 使 用 的 交 
又 、 变 异 等 遗传 算 子 也 必须 使 其 运算 结果 所 产生 新 个 体 的 基因 值 在 这 个 区 间 限 制 范 围 内 。 
交叉 操作 时 ,交叉 位 置 必须 选 在 两 个 基因 的 分 界 处 ,而 不 能 选 在 某 个 基因 的 中 间 位 置 。 

实数 编码 适合 于 搜索 空间 大 、 精 度 要 求 高 的 情况 。 


3. 十 进 制 编 码 


十 进 制 编码 是 字符 编码 中 的 一 种 , 它 将 待 处 理 的 参数 数值 逐 位 数字 地 转化 为 一 定 长 度 
的 数字 字符 并 形成 基因 序列 。 其 遗传 操作 可 以 完全 类 似 于 遗传 算法 对 二 进 制 字符 串 的 处 
理 。 例 如 ,对 前 例 , 当 每 个 参数 取 值 范围 均 包 含 在 区 间 [0,10), 且 按 2 位 小 数位 的 精度 编码 
时 ,该 个 体 可 表示 为 zx 一 一 340,625,743 之 。 同 实数 编码 方法 一 样 ,十进制 编码 也 必须 保证 
基因 值 在 给 定 的 区 间 限 制 范围 内 ,遗传 算法 中 所 使 用 的 交叉 .变异 等 遗传 算 子 必须 使 其 运算 
结果 所 产生 新 个 体 的 基因 值 也 在 这 个 区 间 限 制 范围 内 。 为 方便 算 子 设计 起 见 , 可 以 对 各 自 
变量 进行 预 处 理 , 将 各 自 变量 的 取 值 范围 映射 为 L[0.999]j。 前 例 中 , 若 第 一 个 参数 的 取 值 范 
围 为 [0,4. 50], 则 可 以 将 该 参数 值 乘 上 系数 222, 将 区 间 扩 大 为 [0,999]。 这 样 ,各 基因 值 的 
取 值 范围 都 是 {0,… ,9)。 遗 传 操 作 生 成 的 新 个 体 再 除 以 222 就 可 得 真实 值 。 

无 论 哪 种 编码 ,其 个 体 基因 序列 的 长 度 都 很 关键 。 

(1) 长 度 越 长 则 精确 度 越 高 ,并 且 编 码 解码 运算 时 间 越 长 。 

(2) 长 度 越 短 则 精确 度 越 低 ,不 能 保证 搜索 到 全 局 最 优 解 。 

(3) 长 度 主要 由 变量 取 值 范围 和 精度 决定 。 


1042 种 群 规模 


一 定数 量 的 个 体 组 成 了 种 群 ,种 群 中 个 体 的 数目 称 为 种 群 规模 。 由 于 算法 的 种 群 性 操 
作 需 要 ,所 以 在 执行 遗传 操作 之 前 ,必须 已 经 有 了 一 个 若干 初始 解 组 成 的 初始 种 群 。 在 实际 
工程 问题 中 ,往往 并 不 具有 关于 问题 空间 的 先 验 知识 ,所 以 很 难 确定 最 优 解 的 数量 及 其 在 可 
行 解 空间 中 的 情况 。 所 以 最 好 在 问题 的 解 空间 均匀 布点 ,随机 生成 一 定数 目的 初始 种 群 。 
种 群 规模 是 遗传 算法 的 控制 参数 之 一 , 它 的 选取 对 遗传 算法 的 效能 有 影响 。 一 般 的 种 群 规 
模 在 几 十 到 几 百 之 间 取 值 ,问题 的 复杂 程度 不 同时 取 值 也 不 同 。 问 题 越 难 , 种 群 规模 应 适当 
大 一 些 ; 对 于 已 有 信息 ,尽量 减少 种 群 规模 ,一 般 取 值 范 围 为 几 十 到 几 百 。 

初始 种 群 的 设 定 可 采取 以 下 策略 。 

(1) 估计 最 优 解 在 整个 问题 空间 的 分 布 范围 ,然后 在 此 分 布 范围 内 均匀 设置 初始 种 群 。 

(2) 先 随机 生成 一 定数 目的 个 体 ,然后 从 中 选 出 最 好 的 个 体 加 入 种 群 中 ,重复 这 一 过 
程 ,直到 达到 种 群 规模 。 
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群体 规模 是 影响 遗传 算法 寻 优 效率 的 重要 参数 之 一 。 和 群体 规模 过 小 会 限制 群体 的 多 样 
性 ,导致 搜索 过 程 过 早 收敛; 规模 过 大 ,计算 量 增 加 ,也 会 削弱 算法 的 效率 。 许 多 文献 都 建 
议 在 实际 应 用 中 ,群体 个 数 取 值 在 几 十 到 几 百 之 间 。 初 始 群体 的 个 体 通常 都 是 随机 产生 的 。 


1043 适应 度 函 数 


遗传 算法 将 问题 空间 表示 为 基因 序列 空间 ,为 了 执行 适 者 生存 的 原则 必须 对 个 体 的 适 
应 性 进行 评价 。 因 此 ,适应 度 函 数 就 体现 了 个 体 的 生存 环境 。 根 据 个 体 的 适应 度 ,也 就 是 适 
应 度 函 数 计算 的 结果 ,就 可 以 判断 它 在 此 环境 下 的 生存 能 力 。 一 般 来 说 , 较 好 的 个 体 基 因 结 
构 具 有 较 高 的 适应 函数 值 , 即 可 以 获得 较 高 的 评价 ,体现 了 较 强 的 生存 能 力 ,这 对 于 之 后 的 
个 体 遗 传 操作 很 重要 。 由 于 适应 度 函 数 是 种 群 中 个 体 生存 机 会 选择 的 唯一 确定 性 指标 ,所 
以 适应 度 函 数 的 形式 直接 决定 着 种 群 的 遗传 行为 。 根 据 实际 问题 的 含义 ,适应 度 函 数 可 以 
是 生产 利润 ,市场 占有 率 、 商 品 流通 量 、 网 络 流量 或 机 器 可 靠 性 等 。 

为 了 能 够 直接 将 适应 函数 与 种 群 中 的 个 体 优 劣 度量 相 联 系 , 在 遗传 算法 中 的 适应 度 函 
数 规定 为 非 负 ,并 且 在 任何 情况 下 总 是 希望 越 大 越 好 。 一 般 而 言 , 适 应 度 函 数 是 通过 对 目标 
函数 的 转换 而 形成 的 。 

适应 度 函 数 的 设计 一 般 主要 满足 以 下 条 件 。 

(1) 连续 , 非 负 。 

(2) 适应 度 函 数 设 计 应 尽 可 能 简单 。 

(3) 适应 度 函 数 对 某 一 类 具体 问题 ,应 尽 可 能 通用 。 

当然 ,对 于 特殊 设计 的 遗传 算法 ,可 以 不 必 完 全 遵守 上 述 规 则 。 


1044 遗传 算 子 


标准 的 遗传 算 子 一 般 都 包括 选择 、 交 又 和 变异 三 种 。 它 们 构成 了 遗传 算法 的 核心 ,使 得 
算法 具有 强大 的 搜索 能 力 。 


1. 选择 算 子 


选择 操作 就 是 用 来 确定 如 何 从 父 代 种 群 中 按照 某 种 方法 选取 哪些 个 体 遗 传 到 下 一 代 种 
群 的 遗传 运算 。 它 是 根据 个 体 适应 度 函 数值 的 大 小 正比 于 其 被 放 入 候选 的 概率 的 过 程 。 在 
备 选集 中 按照 一 定 的 选择 概率 进行 操作 ,这 个 概率 取决 于 种 群 中 个 体 的 适应 度 及 其 分 布 。 
其 主要 作用 是 避免 了 基因 缺失 ,提高 全 局 收敛 性 和 计算 效率 。 选 择 算 子 可 看 作 是 种 群 空间 
到 父 体 空间 的 随机 映射 , 它 按照 某 种 准则 或 概率 分 布 从 当前 种 群 中 以 高 的 概率 选取 那些 好 
的 个 体 组 成 不 同 的 父 体 以 供 生成 新 的 个 体 。 

目前 常用 的 选择 算 子 有 适应 度 比 例 选择 、 轮 盘 式 选择 和 竞争 式 选 择 等 形式 。 

(1) 适应 度 比 例 选择 。 适 应 度 比 例 选择 中 ,适应 度 高 的 个 体 被 大 量 复制 ,反之 淘汰 。 

在 该 方法 中 ,个 体 的 选择 概率 和 其 适应 度 成 正比 。 设 种 群 大 小 为 n, 其 中 个 体 i 的 适应 
度 为 fit(xi), 则 i 被 选择 的 概率 是 


fitCzi) 
> fitCzi) 
(2) 轮 盘 式 选择 。 轮 盘 式 选择 根据 适应 度 大 小 分 配 轮 盘 面积 ,面积 表示 挑选 到 交配 池 


轧 . (zi) 一 
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中 的 概率 。 如 表 10. 5 所 示 , 表 示 了 4 个 个 体 适 应 度 、 选 择 第 - 轮 第 _ 轮 
概率 和 累积 概率 。 为 了 选择 交配 个 体 ,需要 进行 多 轮 选择 。 | | | | | | | 
每 一 轮 产生 一 个 [0,1] 均 匀 分 布 的 随机 数 ,将 该 随机 数 作为 | | | | 

选择 指针 来 确定 被 选 个 体 。 如 图 10. 3 所 示 , 第 1 轮 随机 数 0 0.18 0.70 0.96 1.00 
为 0.79, 则 个 体 17 被 选中 ; 第 2 轮 随机 数 为 0. 60, 则 个 体 图 10.3 轮 盘 式 选择 过 程 
24 被 选中 。 


表 10.5 适应 度 计 算 


个 体 适应 度 选择 概率 累计 概率 
14 196 0.18 0.18 
24 576 0.52 0.70 
17 289 0. 26 0. 96 

7 49 0.04 1 


(3) 竞争 式 选择 。 竞 争 式 选择 在 每 一 代 的 进化 过 程 中 首先 随机 地 选取 两 个 以 上 个 体 ， 
具有 最 大 适应 度 者 送 入 交配 池 。 重 复 地 选取 ,一 直到 交配 池 中 的 个 体 个 数 与 种 群 规模 相同 
为 止 。 同 样 的 ,适应 度 函 数值 越 高 的 个 体 越 容 易 被 选中 。 


2. 交叉 算 子 


交叉 操作 是 遗传 算法 中 最 主要 的 遗传 操作 。 它 是 模仿 自然 界 有 性 繁殖 的 基因 重组 过 
程 ,对 两 个 父 代 个 体 进行 基因 操作 ,其 作用 在 于 把 原 有 优良 基因 遗传 到 下 一 代 种 群 中 ,并 生 
成 包含 更 复杂 基因 结构 的 新 个 体 。 交 又 算 子 可 看 作 是 父 体 空间 到 个 体 空间 的 随机 映射 , 它 
通常 的 作用 方式 是 : 随机 地 确定 一 个 或 多 个 分 量 位 置 为 交叉 点 ,由 此 将 一 对 父 体 的 两 个 个 
体 分 为 有 限 个 片断 ,再 以 概率 p.( 称 为 交叉 概率 ) 交 换 相应 片断 得 到 新 的 个 体 。 

根据 交叉 点 个 数 的 多 少 ,交叉 算 子 可 分 为 单 点 交叉 、 两 点 交叉 、 多 点 交叉 和 均匀 交叉 等 
形式 。 其 中 均匀 交叉 是 对 两 个 父 代 个 体 的 每 一 个 基因 位 上 的 基因 进行 等 概率 交换 而 生成 两 
个 子 代 , 它 可 看 作 是 多 点 交叉 的 极限 形式 。 各 种 交叉 形式 如 图 10.4 所 示 。 


父 代 子 代 
11101001000 11101010101 


00001010101 [| 00001001000 


a 11101001000 11001011000 
两 点 交叉 。 | 00001010101 上 | 00101000101 


二 00000000000 01010101010 
均匀 交叉 11111111111 二 | 10101010101 


图 10.4 交叉 算 子 


交叉 率 P, 的 设置 对 于 搜索 过 程 很 重要 。 
(1) 交叉 率 太 高 , 则 优良 物种 被 取 走 的 速度 越 快 ,产生 新 物种 的 速度 也 越 快 。 
(2) 交叉 率 太 低 , 则 搜索 过 程 会 停滞 不 前 。 
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(3) 交叉 前 已 经 过 复制 和 选择 , 故 较 一 般 随 机 搜索 算法 要 好 。 


3. 变异 算 子 2 ER 
11101001000 11101001000 


完全 依靠 选择 和 交叉 操作 可 能 导致 无 法 创造 出 具 | 00101000101 三 | 00101000101 
有 新 特性 的 个 体 , 如 图 10. 5 所 示 。 

为 了 解决 上 述 问题 ,希望 通过 突变 的 方式 使 新 个 体 图 10.5 交叉 导致 没有 创新 
跳 脱 局 域 解 范围 ,产生 全 局 最 优 解 。 变 异 操作 是 将 个 体 
基因 序列 中 的 某 些 基 因 位 上 的 基因 值 用 该 基因 位 的 其 他 等 位 基因 来 蔡 换 ,从 而 形成 一 个 新 
个 体 。 在 遗传 算法 中 ,变异 算 子 通常 通过 按 变异 概率 p,, 随机 对 个 体 中 的 基因 进行 突变 来 
实现 。 为 了 保证 个 体 变 异 后 不 会 与 父辈 产生 太 大 差异 ,变异 概率 一 般 取 值 较 小 ,以 保证 种 群 
发 展 的 稳定 性 ,和 否则 等 同 于 随机 搜索 。 

变异 算 子 可 看 作 是 个 体 空间 到 个 体 空 间 的 随机 映射 ,常见 的 变异 算 子 包 括 位 点 变异 , 插 
人 变异 、 对 换 变异 、 边 界 变 异 、 非 均匀 变异 和 高 斯 变异 等 形式 。 变 异 操作 需 注意 如 下 问题 。 

(1) 交叉 与 变异 概率 控制 算法 收敛 速度 。 

(2) 初始 概率 可 以 定 为 较 大 的 值 ,以 便 在 全 局 范围 内 搜索 ,然后 依 进化 代数 递减 ,锁定 
最 优 解 。 

(3) 适当 时 刻 可 以 加 入 人 为 干扰 以 刺激 产生 新 物种 。 


1045 终止 条 件 


关于 遗传 算法 的 迭代 过 程 如 何 终止 ,一般 采用 设 定 最 大 代数 的 方法 。 该 方法 简单 易 行 ， 
但 需要 多 次 调试 才能 找到 合适 的 代数 ,所 以 不 准确 。 其 次 ,可 以 根据 种 群 的 收敛 程度 来 判 
定 , 通 过 计算 种 群 中 基因 多 样 性 程度 . 即 所 有 基因 位 的 相似 程度 来 进行 控制 ; 或 者 根据 算法 
的 最 优 解 连续 多 少 代 没有 新 的 改进 来 确定 ,也 就 是 所 有 个 体 趋 近 相同 时 可 以 结束 进化 。 有 
时 也 可 以 根据 种 群 的 平均 适应 度 超过 预先 设 定 的 阔 值 决定 进化 结束 。 


10.5 相关 研究 与 应 用 


遗传 算法 提供 了 一 种 求解 复杂 系统 优化 问题 的 通用 框架 , 它 不 依赖 于 问题 的 具体 领域 ， 
对 间 题 的 种 类 有 很 强 的 鲁 棒 性 ,所 以 应 用 于 很 多 学 科 。 


1. 函数 优化 问题 


函数 优化 是 遗传 算法 的 经 典 应 用 领域 ,也 是 对 遗传 算法 进行 性 能 评估 的 常用 做 法 。 很 
多 人 构造 出 了 各 种 各 样 的 复杂 形式 的 测试 函数 ,有 连续 函数 也 有 高 散 函数 ,有 凸 函数 也 有 凹 
函数 ,有 低 维 函数 也 有 高 维 函 数 . 有 确定 函数 也 有 随机 函数 ,有 单 峰 值 函数 也 有 多 峰值 函数 
等 。 而 对 一 些 非 线性 、 多 模型 .多 目标 的 函数 优化 问题 ,用 其 他 优化 方法 较 难 求解 ,而 遗传 算 
法 可 以 求 得 较 好 的 结果 。 


2. 组 合 优化 问题 


随 着 问题 规模 的 扩大 ,组 合 优 化 问题 的 搜索 空间 也 急剧 扩大 ,这 种 情况 下 用 枚 举 法 很 难 
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或 者 甚至 不 可 能 得 到 其 精确 最 优 解 。 对 于 这 类 复杂 问题 ,遗传 算法 则 是 寻求 满意 解 的 最 佳 
工具 之 一 。 实 践 证 明 ,遗传 算法 对 于 组 合 优化 中 的 NP 问题 非常 有 效 。 例 如 ,遗传 算法 已 经 
在 求解 旅行 商 问题 .背包 问题 , 装 箱 问题 和 图 形 划分 问题 等 方面 得 到 成 功 的 应 用 。 


3. 生产 调度 问题 


生产 调度 问题 在 许多 情况 下 所 建立 起 来 的 数学 模型 难以 精确 求解 ,即使 经 过 一 些 简 化 
之 后 可 以 进行 求解 ,也 会 因 简 化 太 多 而 使 求解 结果 与 实际 相差 其 远 。 目 前 遗传 算法 已 成 为 
解决 复杂 调度 问题 的 有 效 工具 ,在 单 件 生产 车 间 调 度 、 流 水 线 生 产 车 间 调 度 、 生 产 规划 和 任 
务 分 配 等 方面 ,遗传 算法 都 得 到 了 有 效 的 应 用 。 


4. 自动 控制 


在 自动 控制 领域 中 有 许多 与 优化 相关 的 问题 需要 求解 ,遗传 算法 已 经 得 到 应 用 并 显示 
了 和 良好 的 效果 。 例 如 ,用 遗传 算法 进行 航空 控制 系统 的 优化 、 模 糊 控制 器 优化 设计 ,参数 辩 
识 ,利用 遗传 算法 进行 人 工 神经 网 络 的 结构 优化 设计 和 权 值 学 习 , 都 显示 出 了 遗传 算法 在 这 
些 领域 中 应 用 的 可 能 性 。 


5. 图 像 处 理 


图 像 处 理 和 模式 识别 是 计算 机 视觉 中 的 一 个 重要 研究 领域 。 在 图 像 处 理 过 程 中 ,如 扫 
描 、 特 征 提取 和 图 像 分 割 等 不 可 避免 地 产生 一 些 误差 ,这 些 误差 会 影响 到 图 像 处 理 和 识别 的 
效果 。 如 何 使 这 些 误 差 最 小 是 使 计算 机 视觉 达到 实用 化 的 重要 要 求 。 遗 传 算法 在 图 像 处 理 
中 的 优化 计算 方面 是 完全 胜任 的 。 目 前 遗传 算法 已 在 图 像 恢 复 、 图 像 边缘 特征 提取 及 几何 
形状 识别 等 方面 得 到 了 应 用 。 


6. 人 工 生命 


人 工 生命 是 用 计算 机 等 人 工 媒体 模拟 或 构造 出 具有 自然 生物 系统 特有 行为 的 人 造 系 
统 。 自 组 织 能 力 和 自学 习 能 力 是 人 工 生命 的 两 大 主要 特征 。 人 工 生命 与 遗传 算法 有 着 密切 
的 关系 ,给 予 遗传 算法 的 进化 模型 是 研究 人 工 生命 现象 的 重要 理论 基础 。 虽 然 人 工 生命 的 
研究 尚 处 于 启蒙 阶段 ,但 遗传 算法 已 在 进化 模型 ,学习 模型 和 行为 模型 等 方面 显示 了 初步 的 
应 用 能 力 。 可 以 预见 ,遗传 算法 在 人 工 生命 及 复杂 自 适应 系统 的 模拟 与 设计 研究 中 ,将 得 到 
更 为 深入 的 发 展 。 


7. 遗传 编程 


Koza 发 展 了 遗传 程序 设计 的 概念 ,他 使 用 了 以 LISP 语言 所 表示 的 编码 方法 ,基于 对 一 
种 树 型 结构 所 进行 的 遗传 操作 自动 生成 计算 机 程序 。 虽 然 遗 传 程序 设计 的 理论 尚未 成 熟 ， 
应 用 也 有 一 些 限 制 , 但 它 已 在 一 些 人 工 智 能 和 机 器 学 习 方 面 取得 成 功 的 应 用 。 


8. 机 器 学 习 
学 习 能 力 是 高 级 自 适应 系统 所 应 具备 的 能 力 之 一 。 基 于 遗传 算法 的 机 器 学 习 , 特 别 是 
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分 类 器 系统 ,在 许多 领域 得 到 了 应 用 。 例 如 ,遗传 算法 被 用 于 模糊 控制 规则 的 学 习 , 利 用 遗 
传 算法 学 习 隶 属 度 函 数 , 从 而 更 好 地 改进 了 模糊 系统 的 性 能 。 基 于 遗传 算法 的 机 器 学 习 可 
用 于 调整 人 工 神经 网 络 的 连接 权 , 也 可 用 于 神经 网 络 结 构 的 优化 设计 。 分 类 器 系统 在 多 机 
器 人 路 径 规 划 系统 中 得 到 了 成 功 的 应 用 。 


10.6 小 结 


遗传 算法 是 模拟 达尔 文 的 遗传 选择 和 自然 淘汰 的 生物 进化 过 程 的 计算 模型 ,是 一 种 通 
过 模拟 自然 进化 过 程 搜索 最 优 解 的 方法 。J. Holland 教授 所 提出 的 GA 通常 为 简单 遗传 
算法 。 

遗传 算法 的 设计 主要 有 5 大 要 素 : 编码 方式 ,种群 规模 的 设 定 、 适 应 度 函 数 的 设计 、 遗 
传 算 子 的 设计 和 终止 条 件 的 设 定 。 

遗传 算法 是 从 代表 问题 可 能 潜在 的 解 集 的 一 个 种 群 开始 的 ,而 一 个 种 群 则 由 经 过 基因 
编码 的 一 定数 目的 个 体 组 成 。 在 一 开始 需要 实现 从 解 空间 到 基因 序列 的 映射 , 即 编码 工作 。 
初代 种 群 产生 之 后 ,按照 适 者 生存 和 优胜 劣 汰 的 原理 , 逐 代 演 化 产生 出 越 来 越 好 的 近似 解 。 
在 每 一 代 , 根 据 问题 域 中 个 体 的 适应 度 大 小 选择 个 体 , 并 借助 于 自然 遗传 学 的 遗传 算 子 进行 
组 合 交叉 和 变异 ,产生 出 代表 新 的 解 集 的 种 群 。 这 个 过 程 将 导致 种 群像 自然 进化 一 样 的 后 
生 代 种 群 比 前 代 更 加 适应 于 环境 ,末代 种 群 中 的 最 优 个 体 经 过 解码 ,可 以 作为 问题 的 近似 最 
优 解 。 


10.7 习题 


1. 待 优化 的 目标 函数 如 下 
f(x)=zx+l1 x€ [0,9] 
求 该 函数 的 最 大 值 , 即 需 要 先 求 得 在 [0.9] 区 间 内 的 哪个 x 值 可 以 使 y 值 最 大 。 则 采 
用 二 进 制 编码 时 , 需 使 用 位 编码 。 


2. 以 下 两 个 个 体 单 点 交叉 后 的 结果 是 : 和 
1000101101 
0101010101 
3. 以 下 两 个 个 体 单 点 交叉 后 的 结果 是 : 和 


100 0101101 
010 1010101 

4. 以 下 两 个 个 体 均匀 交叉 后 的 结果 是 : 和 
1000101101 

0101010101 

5. 遗传 算法 的 主要 应 用 有 哪些 ? 

6. 简单 遗传 算法 包括 哪些 步 又? 
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7. 遗传 算法 在 设计 时 涉及 到 哪些 参数 ? 每 种 参数 的 作用 是 什么 ? 
8. 遗传 算法 可 能 遇 到 怎样 的 问题 ? 
9. 如 果 采 用 轮 盘 赌 选择 法 ,填写 表 10. 6 中 各 个 体 的 选择 概率 。 
表 10.6 习题 9 所 用 表格 
个 体 适应 度 选择 概率 累计 概率 


第 11 章 统计 分 析 


统计 学 提供 了 大 量 的 数据 分 析 方 法 。 例 如 ,可 以 通过 计算 属性 取 值 的 均 
值 .方差 ,作出 数据 分 布 的 直方 图 来 了 解数 据 的 分 布 状况 ; 可 以 根据 样本 统计 
量 对 总 体 参 数 作出 推断 ; 可 以 通过 建立 各 类 统计 分 析 模 型 进行 统计 预测 ; 可 
以 通过 多 元 统计 方法 对 多 元 数据 进行 探索 分 析 等 。 可 以 说 ,统计 分 析 方 法 在 
数据 挖掘 技术 中 的 作用 是 不 容 忽视 的 。 在 实际 应 用 中 ,利用 专门 的 统计 分 析 
软件 对 数据 进行 处 理会 更 加 方便 一 些 ,例如 统计 分 析 软 件 SPSS、SAS 等 。 由 
SPSS、SAS 等 公司 开发 的 数据 挖掘 软件 Clementine、Enterprise Miner 也 都 
包含 了 传统 的 统计 分 析 方 法 模块 。 数 据 库 开发 平台 SQL Sever 提供 了 统计 
分 析 方 法 中 的 线性 回归 模型 .逻辑 回归 模型 和 时 间 序 列 模型 ,但 使 用 的 算法 
不 同 于 传统 的 统计 软件 。 


11.1 线性 回归 模型 


先 来 看 一 个 例子 。 一 家 企业 发 现 最 近 几 个 月 的 销售 量 不 够 理想 ,希望 采 
取 一 些 措施 来 促进 产品 的 销售 。 可 以 采取 的 措施 包括 增加 广告 支出 、 调 整 产 
品 的 价格 等 。 企 业 希 望 知道 企业 的 销售 量 与 广告 支出 、 销 售 价格 之 间 的 定量 
关系 才能 进行 预测 和 决策 : 广告 支出 增加 1 万 元 ,销售 量 会 有 什么 样 的 变化 ? 
单位 价格 降低 100 元 ,销售 量 会 怎样 变化 ? 广告 支出 和 销售 价格 等 于 特定 数 
值 时 ,销售 量 等 于 多 少 ? 确定 以 上 定量 关系 的 过 程 称 为 回归 分 析 。 在 回归 分 
析 中 ,属性 (例如 销售 量 ) 称 为 因 变 量 ; 影响 因 变量 变动 的 属性 (例如 广告 支 
出 ,销售 价格 ) 称 为 自 变 量 ; 表示 因 变 量 和 自 变 量 之 间 定 量 关系 的 函数 称 为 回 
归 模 型 。 回 归 分 析 的 主要 任务 就 是 对 回归 模型 中 的 参数 进行 估计 ,以 分 析 因 
变量 与 自 变量 之 间 的 定量 关系 ,并 用 来 对 因 变 量 进行 预测 。 

当 回 归 模 型 中 只 包含 一 个 自 变量 时 , 称 为 一 元 回归 模型 ; 当 回 归 模 型 中 
包含 两 个 或 两 个 以 上 的 自 变量 时 , 称 为 多 元 回归 模型 。 此 外 , 当 回 归 模 型 中 
的 自 变量 只 以 一 次 方 的 形式 出 现时 , 称 为 线性 回归 模型 ; 否则 称 为 非 线性 回 
归 模 型 。 由 于 一 元 回归 模型 是 多 元 回归 模型 的 特例 ,并 且 大 部 分 非 线性 回归 
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模型 都 可 以 通过 适当 的 数学 变换 转化 为 线性 回归 模型 ,所 以 本 节 主 要 研究 多 元 线性 回归 


11.1.1 线性 回归 模型 的 参数 估计 


假设 给 定 的 数据 集 为 D 一 {Cza ,za ，… ,za ; yi) |i 二 1,2,…,n} ,其 中 数据 样本 (za ,xo ,…， 
xx) 分 别 对 应 & 个 自 变 量 ( 在 数据 挖掘 中 称 为 描述 属性 ) Xi,Xs,…',Xx 的 具体 取 值 ; w (Ci 一 
1,2.…,7) 代 表 因 变量 Y 的 具体 取 值 。 在 线性 回归 分 析 中 , 因 变 量 和 自 变量 的 取 值 一 般 是 
连续 的 。 
给 定 上 述 条 件 之 后 ,可 以 得 到 多 元 线性 回归 模型 ,如 式 (11-1) 所 示 。 
Y=B+BXi+BX t+BX:t+p (11-1) 
式 (11-1) 中 , 因 变 量 Y 与 自 变量 Xi ,X,,…,X 之 间 具 有 线性 关系 ; B(j 二 0,1,2,…,k) 是 
未 知 参数 , 称 为 回归 系数 ; y 是 随机 误差 项 。 
将 自 变量 Xi ,X。,…,X 的 具体 取 值 代入 式 (11-1) 中 ,可 以 得 到 式 (11-2)。 
yi =Bo 二 BrathBra 二 Bratp,s i= 1,2,,n (11-2) 
在 多 元 线性 回归 模型 中 ,由 于 回归 系数 8(j 二 0,1,2,…,k) 是 未 知 的 ,需要 对 它们 进行 
估计 。 假 设 回 归 系 数 的 估计 值 为 BG==0,1,2,…,k), 则 多 元 线性 回归 模型 ( 式 (11-1)) 可 以 
用 式 (11-3) 所 示 的 多 元 线性 回归 方程 来 表示 。 


Y=p,+B Xi+b Xs t+ +PBX; (11-3) 
将 自 变 量 Xi ,Xs,…,X4 的 具体 取 值 代入 式 (11-3) 中 ,可 以 得 到 式 (11-4)。 
=B+t+hzrathrat thra, i=1,2,n (11-4) 


其 中 ,3; 是 y; 的 估计 值 。 

线性 回归 分 析 就 是 根据 因 变 量 和 自 变 量 的 已 知 数据 对 线性 回归 模型 中 的 回归 系数 B (j= 二 
0,1,2,…,k) 进 行 参数 估计 , 求 取 回 归 系 数 的 估计 值 包 Gj 二 0,1,2,…,k) ,进而 利用 线性 回归 
方程 进行 预测 和 分 析 。 

在 参数 估计 时 通常 采用 最 小 二 乘 方法 , 它 的 主要 思想 是 使 因 变量 的 真实 值 与 估计 值 之 
间 残 差 的 平方 和 达到 最 小 ,由 此 来 对 模型 中 的 回归 系数 进行 估计 。 在 线性 回归 分 析 中 ,需要 
在 一 系列 假设 条 件 的 前 提 下 来 使 用 最 小 二 乘 方法 ,这些 假设 条 件 包括 : ma 服从 正 态 分 布 ; jy 
的 期 望 值 为 0; yi 5 不 相关 ; ji 的 方差 是 一 个 常数 ; X 和 Ai 不 相关 ; 自 变量 之 间 不 存在 多 
重 共 线性 (多 元 回归 ) 等 。 

因 变 量 的 真实 值 与 估计 值 之 间 残 差 的 表达 式 如 式 (11-5) 所 示 。 

ei 一 站 一 方 ， 守 一 12 (11-5) 

如 果 要 使 式 (11-3) 表 示 的 方程 最 接近 式 (11-1) 所 示 的 线性 回归 模型 ,由 最 小 二 乘 方法 
可 知 回归 系数 的 估计 值 为 房 G 一 0,1.2,…,.A)。 应 使 因 变 量 的 全 部 真实 值 w 与 全 部 估计 值 
六 的 残 差 e;(i 一 1.,2,…,n) 的 平方 和 最 小 .即使 


QB ,Bi ,Ba ,Bi) = 2 = 2 C3 —3)? 


2 (yy Bo—PBiza—Bbra — — Bra)’ 
i=1 
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取得 最 小 值 。 根 据 多 元 函数 的 极 值 原 理 ,Q 分别 对 f;(j 二 0,1,2,…,k) 求 一 阶 偏 导数 ,并 令 
其 等 于 0, 即 


3 
由 此 ,可 以 得 到 一 个 包含 & 个 方程 的 方程 组 ,如 式 (11-6) 所 示 。 


n n n 大 
+ Dn 十 应 了 村 + 所 Dn Ed Dy 
i=1 i=1 i=1 i=1 
bo a 下 Bh Dz +pB Dy zaze 十 十 永 za Ti 一 > za Yi 
i=1 i=1 1 一 1 i=1 i=1 


(11-6) 


i + Danza + Dzere +t + a 
求解 式 (11-6) 所 示 的 方程 组 ,得 到 回归 系数 的 估计 值 为 房 (dj 一 0,1， 水 ) ,可 以 用 
式 (11-7) 的 矩阵 形式 来 表示 。 
B= XTX) XY (11-7) 
在 式 (11-7) 中 ,二 (Bb,,B,B,,…,B)" 是 包含 十 1 个 元 素 的 列 向 量 ,其 中 的 各 个 元 素 
是 回归 系数 BG 二 0,1,2,…,k) 的 估计 值 ; Y 二 (yi ,ys，… ,ys)” 是 包含 个 元 素 的 列 向 
量 , 其 中 的 各 个 元 素 是 因 变 量 Y 的 具体 取 值 ; X 是 行 .k 十 1 列 的 矩阵 , 它 的 具体 形式 为 


1 Tu XT Xk 
三 1 T2l Es Tok 
1 za Ze Tm 
在 矩阵 X 中 ,除了 第 一 列 的 元 素 都 为 1 之 外 ,其 余 的 元 素 都 是 因 变 量 Xi ,Xe ，……'Xe 的 


具体 取 值 。 

得 出 回归 系数 的 估计 值 之 后 ,就 可 以 利用 回归 方程 进行 分 析 和 预测 了 。 对 于 Y 值 未 知 
的 数据 样本 ,把 自 变 量 的 具体 取 值 代入 线性 回归 方程 就 可 以 得 到 Y 的 预测 值 。 

但 是 ,根据 线性 回归 方程 进行 分 析 和 预测 之 前 ,必须 先 对 线性 回归 方程 的 拟 合 效果 和 显 
著 性 进行 分 析 和 检验 。 只 有 拟 合 程度 较 高 ,通过 了 显著 性 检验 的 方程 才 具 有 应 用 价值 。 


11.12 线性 回归 方程 的 判定 系数 


在 线性 回归 分 析 中 ,根据 11. 1. 1 节 中 介绍 的 步骤 得 到 回归 系数 的 估计 值 之 后 ,根据 
式 (11-4) 可 以 计算 出 因 变 量 Y 的 各 个 真实 值 的 估计 值 。 因 变量 的 真实 值 与 估计 值 之 间 的 
接近 程度 通常 用 判定 系数 (R? ) 来 进行 度量 。 判 定 系 数 的 定义 如 式 (11-8) 所 示 。 


:RSS_]_ESS i 
Rs (11-8) 


其 中 ,TSS 称 为 总 离 差 平方 和 ,RSS 称 为 回归 平方 和 ,ESS 称 为 残 差 平方 和 ,它们 的 表 
达 式 分 别 为 式 (11-9) 、 式 (11-10) 和 式 (11-11)。 此 外 ,在 线性 回归 分 析 中 ,如 果 使 用 OLS 估 
计 , 并 且 方 程 中 包含 自 变量 ,可 以 证 明 TSS 一 RSS 十 ESS。 
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TSS = >) (wy 一 习 ? (11-9) 
1 一 1 

RSS = >) (六 一 习 ? (11-10) 
i=1 

ESS = >)(y 一 广 ) (11-11) 


i=1 


式 (11-9) 和 式 (11-10) 中 的 3 是 因 变 量 Y 的 各 个 真实 取 值 的 平均 值 , 它 的 表达 式 如 
式 (11-12) 所 示 。 


3 (11-12) 


从 式 (11-8) 可 以 看 出 ,判定 系数 R* 的 取 值 范围 是 [0,1]。R? 越 接近 于 1, 表 明 回 归 平 
方 和 RSS 占 总 离 差 平方 和 TSS 的 比例 越 大 , 则 线性 回归 方程 的 拟 合 程度 就 越 好 ; 反之 ,R? 
越 接近 于 0, 回 归 方 程 的 拟 合 程度 就 越 差 。 

在 线性 回归 方程 ( 式 (11-3)) 中 , 自 变 量 的 个 数 对 判定 系数 R* 的 大 小 有 直接 影响 。 为 
了 消除 这 种 影响 ,更 加 客观 地 比较 线性 回归 方程 的 拟 合 效果 ,在 多 元 线性 回归 分 析 中 通常 用 
样本 的 个 数 nw 和 自 变 量 的 个 数 & 对 判定 系数 R? 进行 修正 ,从 而 得 到 修正 的 判定 系数 Rs ,如 
式 (11-13) 所 示 。 


| RD) x ei (11-13) 


一 
由 于 R? 同时 考虑 了 样本 的 个 数 n 和 自 变量 的 个 数 & 的 影响 ,使 得 R? 总 是 小 于 R? ,而 
且 R? 不 会 由 于 自 变量 个 数 的 增加 而 越 来 越 接近 1。 因 此 ,在 多 元 线性 回归 分 析 中 通常 用 修 
正 的 判定 系数 R? 来 度量 因 变 量 的 真实 值 与 估计 值 之 间 的 接近 程度 。 


11.1.3 线性 回归 方程 的 检验 


在 实际 应 用 中 ,出 于 成 本 .时间 等 方面 的 考虑 ,我 们 只 能 利用 总 体 中 的 一 部 分 进行 统计 
分 析 ( 如 11. 1. 1 节 中 的 数据 集 D 只 是 总 体 中 的 一 部 分 )。 例 如 ,如 果 想 了 解 某 种 产品 的 平 
均 使 用 寿命 ,不 可 能 对 所 有 的 产品 样本 都 进行 测量 ,只 能 对 其 中 的 一 部 分 样本 进行 抽样 测 
量 。 那 么 ,根据 部 分 数据 样本 进行 统计 分 析 时 得 到 的 计算 结果 能 否 代表 总 体 的 真实 情况 ? 
这 需要 通过 假设 检验 的 方法 加 以 判断 。 

在 线性 回归 分 析 中 ,得 到 回归 系数 的 估计 值 之 后 .还 要 对 总 体 中 的 回归 系数 的 显著 性 进 
行 检验 。 显 著 性 检验 包括 两 方面 的 内 容 : 一 方面 是 对 各 个 回归 系数 的 显著 性 检验 ; 另 一 方 
面 是 对 线性 回归 方程 的 显著 性 检验 。 前 者 通常 采用 1 检验 ,后 者 通常 采用 下 检验 。 


1. 回归 系数 的 上 检验 


回归 系数 的 + 检验 中 , 原 假设 通常 为 8 一 0(j 一 0,1,2,…,k) ,检验 的 上 统计 量 的 表达 式 
如 式 (11-14) 所 示 , 式 中 的 分 母 是 B 的 标准 误差 。 标 准 误差 的 计算 公式 比较 复杂 ,但 在 统计 
软件 中 都 可 以 直接 给 出 计算 结果 。 


Po j=1,2,.…,k (11-14) 
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在 原 假 设 条 件 成 立时 ,6 服从 自由 度 为 n 一 p 一 1 的 :上 分布。 对 于 每 一 个 回归 系数 BO 一 0， 
1,2,…,&) ,根据 1 统计 量 1;(j 二 0,1,2,….k) 可 以 计算 出 相应 的 概率 值 (p 值 )。 如 果 这 个 p 
值 小 于 预先 设 定 的 显著 性 水 平 (通常 取 值 为 5%) ,就 可 以 拒绝 原 假设 ,说 明 不 能 认为 总 体 中 
二 0, 也 就 是 说 自 变量 X; 在 模型 中 的 作用 是 显著 的 。 当 p 值 大 于 预先 设 定 的 显著 性 水 平 
时 ,不 能 拒绝 原 假设 。 通 常情 况 下 我 们 希望 拒绝 原 假设 ,因而 也 就 希望 得 到 较 小 的 p 值 。 


2. 线性 回归 方程 的 下 检验 


线性 回归 方程 的 下 检验 是 用 来 检验 因 变 量 Y 与 & 个 自 变量 Xi ,XX,,…,X 之 间 的 关系 
是 否 显著 ,也 称 为 总 体 显著 性 检验 。 下 检验 的 原 假 设 为 B, 一 应 一 … 一 及 一 0, 检 验 的 下 统计 
量 的 表达 式 如 式 (11-15) 所 示 。 
RSS/k 

ESS/(n—k—1) 

在 原 假设 条 件 成 立时 ,F 统计 量 服从 数学 中 的 下 (k,n 一 k 一 1) 分 布 。 根 据 下 统计 量 的 值 
可 以 计算 出 相应 的 p 值 ,p 值 小 于 预先 设 定 的 显著 性 水 平时 拒绝 原 假设 ,否则 不 能 拒绝 原 假 
设 。 显 然 ,在 下 检验 中 我 们 是 希望 拒绝 原 假设 的 。 

在 t 检 验 和 下 检验 中 如 果 不 能 拒绝 某 个 原 假设 时 ,通常 需要 对 线性 回归 模型 进行 修改 ， 
之 后 重新 进行 回归 系数 的 估计 。 


1114 统计 软件 中 的 线性 回归 分 析 


统计 软件 中 的 线性 回归 分 析 按 照 11. 1. 1 节 中 的 方法 得 出 回归 方程 以 及 相关 的 统计 结 
果 。 例 如 , 某 公司 的 总 经 理 比较 关心 公司 员工 的 缺勤 情况 。 为 此 ,公司 的 人 事 经 理 着 手 对 这 
一 问题 进行 研究 。 有 文章 指出 员工 的 年 龄 可 能 会 影响 员工 的 出 勤 情况 。 因 此 ,人 事 经 理 收 
集 了 15 个 人 的 年 龄 和 在 过 去 一 年 中 缺勤 天 数 的 资料 来 研究 这 一 问题 ,收集 到 的 数据 如 
表 11. 1 所 示 。 


F (11-15) 


表 11.1 缺勤 天 数 和 年 龄 的 数据 


编号 缺勤 天 数 年 龄 编号 缺勤 天 数 年 龄 
1 3 25 9 9 56 
2 4 36 10 12 60 
3 区 41 11 8 51 
4 4 27 12 5 33 
3 35 13 6 流 
6 3 31 14 2 人 
7 5 35 15 2 29 
8 7 41 


可 以 看 出 ,缺勤 天 数 是 因 变 量 Y. 年 龄 是 自 变 量 义 , 它 们 可 以 构造 如 下 的 线性 回归 模型 
缺勤 天 数 一 十 Bx 年龄 十 
许多 统计 软件 都 可 以 进行 线性 回归 分 析 , 本 节 使 用 统计 软件 SPSS。 在 SPSS 中 输入 
表 11. 1 的 数据 ,选择 Analyze 菜单 的 Regression 命令 ,选择 linear, 经 过 一 系列 设 定 后 可 以 
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得 到 线性 回归 的 结果 。 


根据 SPSS 的 计算 结果 ,方程 Rz(R Square) 一 0. 859 的 值 比较 接近 于 1, 说 明 方程 的 拟 
合 效 果 较 好 。 方 差分 析 表 中 下 检验 的 p 值 (Sig. ) 为 0.0000, 在 5% 的 显著 性 水 平 下 可 以 拒 
绝 原 假设 ,也 就 是 说 方程 整体 上 是 显著 的 。 


表 11.2 回归 分 析 的 回归 系数 和 上 检验 


系数 标准 误差 Zp 值 
常数 项 一 4.276 9 1.116 4 0.0021 
X 0.2538 0.0285 0.0000 


表 11. 2 是 回归 系数 的 估计 值 (B, 二 一 4.276 9, 记 一 0.253 8) 和 :检验 的 结果 。 从 表 中 可 
以 看 出 , 自 变量 X( 年 龄 ) 的 1 检验 中 p 值 小 于 5% ,在 5% 的 显著 性 水 平 下 可 以 拒绝 原 假设 ， 
说 明 自 变量 在 模型 中 是 显著 的 。 

根据 回归 系数 的 估计 值 , 得 到 的 线性 回归 方程 为 

缺 蔓 关 数 一 一 4. 276 9 十 0. 253 8 * 年 龄 

根据 以 上 回归 方程 ,年 龄 每 增加 1 岁 ,平均 缺勤 天 数 增加 0. 253 8 天 。 如 果 需 要 根据 X 
的 值 预测 Y 的 值 ,只 需要 把 X 的 值 代入 方程 进行 计算 即 可 。 例 如 ,如 果 一 名 职工 年 龄 为 40 
岁 , 可 以 计算 出 他 的 缺勤 天 数 为 5. 88 天 。 


11.1.5 ”SQL Server 2005 中 的 线性 回归 应 用 


本 节 讲 述 如 何 使 用 SQL Server 2005 中 的 线性 回归 对 数据 进行 分 析 , 使 用 的 数据 集 是 
SQL Server 2005 的 Adventure Works DW 数据 库 中 的 vTimeSeries 数据 集 。 

11.1.1 节 给 出 的 线性 回归 模型 的 参数 估计 方法 (最 小 二 乘法 ) 是 统计 分 析 中 普遍 采用 
的 方法 。 而 SQL Server 2005 中 的 Microsoft 线性 回归 使 用 的 算法 是 Microsoft 决策 树 算 法 
的 特例 ,不 是 最 小 二 乘法 。 下 面 给 出 SQL Server 2005 中 的 线性 回归 的 操作 步骤 。 

(1) 创建 Analysis Services 项 目 。 

(2) 创建 数据 源 。 

上 述 两 个 步骤 与 第 4 章 4. 4. 2 节 中 的 步骤 (1) 和 (2) 相 同 ,这 里 不 再 袭 述 。 

(3) 创建 数据 源 视图 。 

在 解决 方案 资源 管理 器 中 ,右键 单 击 “ 数 据 源 视图 ”, 从 弹出 的 快捷 菜单 中 选择 “新 建 数 
据 源 视图 ”命令 ,系统 将 打开 数据 源 视图 向 导 。 在 “欢迎 使 用 数据 源 视图 向 导 ” 页 上 , 单 击 “ 下 
一 步 " 按 钮 。 在 “选择 数据 源 ” 页 中 再 次 单 击 “ 下 一 步 " 按 钮 。 在 “选择 表 和 视图 "页 上 ,选择 
dbo. vTimeSeries 视图 ,然后 单 击 右 箭头 按钮 ,将 它 包括 在 新 数据 源 视图 中 ,如 图 11. 1 
所 示 。 

在 图 11. 1 中 , 单 击 “下 一 步 ?按钮 ,在 随后 出 现 的 “完成 向 导 ” 页 上 ,默认 情况 下 系统 将 数 
据 源 视图 命名 为 Adventure Works DW , 单 击 * 完 成 ?按钮 ,数据 源 视图 创建 成 功 。 

(4) 创建 “线性 回归 ?挖掘 结构 。 

在 解决 方案 资源 管理 器 中 ,右键 单 击 “ 挖 掘 结 构 ”, 从 弹出 的 快捷 菜单 中 选择 “新 建 挖掘 
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SEEEEEETIES =|Dlx| 


择 表 和 视图 
从 要 包含 在 数据 源 视 图 中 的 关系 数据 库 中 选择 对 象 。 


可 用 对 象 (入 ); 包含 的 对 象 (D; 


国 dbo.FactInternets... 


国 dbo.FactReseller5.,, 


表 
表 
国 dbo.FadtInternet5,,， 表 
甫 
国 dbo,FactsalesQuota 表 


图 dbo.prospectiveBu..， 表 

国 dbo.vAssoc5eqLin,,， 视 图 

国 dbo.vAssoc5eqor..， 视 图 ES 
-| 

诈 直 88(D: | 也 | 志 曾 相关 表 辐 

< 上 -5 四 |[ TF—S0) | BD >> | 取消 更 


图 11.1 创建 数据 源 视 图 


结构 "命令 ,系统 将 打开 数据 挖掘 向 导 。 在 “欢迎 使 用 数据 挖掘 向 导 ” 页 上 , 单 击 “ 下 一 步 ? 按 
钮 。 在 “选择 定义 方法 ”页 上 ,确认 已 选中 “从 现 有 关系 数据 库 或 数据 仓库 ”, 再 单 击 “ 下 一 步 ” 
按钮 。 在 “选择 数据 挖掘 技术 "页 的 “您 要 使 用 何 种 数据 挖掘 技术 ?” 下 拉 列 表 中 选择 
“Microsoft 线性 回归 ”选项 ,如 图 11.2 所 示 。 


< 炒 据 控 氟 向 导 ojxl 
选择 数据 控 气 技术 RS 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 最 适用 的 数据 控 据 技术 。 A 


so Tn] = | mn | 
3 


图 11.2 选择 Microsoft 线性 回归 作为 挖掘 技术 


在 图 11. 2 中 , 单 击 “ 下 一 步 ? 按 钮 ,在 随后 出 现 的 “选择 数据 源 视 图 ”页 上 ,请 注意 已 默认 
选中 Adventure Works DW。 单 击 “ 选 择 数据 源 视图 ”页 上 的 “下 一 步 ” 按 钮 ,在 “指定 表 类 
型 "页 上 ,选中 vTimeSeries 表 右 边 * 事 例 ? 列 中 的 复 选 框 , 如 图 11. 3 所 示 。 
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图 11.3 选择 vTimeSeries 作为 事例 表 


在 图 11. 3 中 , 单 击 * 下 一 步 ?按钮 ,出现 * 指 定 定型 数据 ”页 ,如 图 11.4 所 示 。 在 图 11.4 
中 ,依次 选中 TimeIndex 列 右 边 “* 键 ? 列 中 的 复 选 框 ,Amount 和 Quantity 列 右边 的 “输入 ” 
复 选 框 ,Quantity 列 右边 的 “可 预测 ” 复 选 框 。 


图 11.4 指定 线性 回归 分 析 中 所 用 的 列 


在 图 11. 4 中 单 击 “ 下 一 步 ”按钮 ,在 “指定 列 的 内 容 和 数据 类 型 "页 上 , 单 击 “ 下 一 步 ” 按 
钮 ,出 现 “ 完 成 向 导 ” 页 ,如 图 11.5 所 示 。 
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6 
es 
为 挖 握 结构 提供 名 称 ， 从 而 完成 数据 挖掘 向 导 。 CC 多 


挖掘 结构 名 称 (M): 


Fegesson 


挖掘 模型 名 称 (D): 


Regression 厂 允许 钻 取 (D 


0| 7 0 | wm | 
图 11.5 完成 线性 回归 挖掘 结构 向 导 


在 图 11. 5 中 的 “挖掘 结构 名 称 " 文 本 框 中 输入 Regression, 在 “挖掘 模型 名 称 ” 文 本 框 中 
输入 Regression, 之 后 单 击 “ 完 成 "按钮 ,由 此 线性 回归 挖掘 结构 创建 完成 ,系统 将 打开 挖掘 
结构 设计 器 ,显示 Adventure Works DW 挖掘 结构 视图 ,如 图 11.6 所 示 。 


ETERTETITRTITETTESTIT 

文件 E) 编辑 EE) 视图 Y) 项 目 E) 生成 @) 调试 Q) 格式 @) 数据 库 G) 数据 源 视 图 G) 控 据 横 型) 工具 CD 
窗口 Ww) 社区 C) 帮助 c) 

闭 " 回 国 |# 了 和 龟 | -| |peveopmen "| 可 了 次 园 习 " 晤 


于 | v Time series dmm [设计 ]| ”Advenare Works Wasv [设计 ] | 起 区 页 | YX 
上 人 近 所 横 型 | 六 学 据 模 反 查看 哩 |. 近 寺 人 大 性 图 表 | 宝 近 抱 横 型 预 测 | 胸 
“日 加 到 


ure Works DW,ds 


Advent 
日 - 窜 数据 源 视图 
局 多 维 数据 集 


v Time Series Minngsruchre 


国王 
D 


| 世 错 误 列 表 | 
就 绪 


图 11.6 Adventure Works DW 回归 分 析 挖 掘 结构 视图 


(5) 设置 线性 回归 挖掘 结构 的 相关 参数 。 

在 “挖掘 模型 "选项 卡 上 单 击 鼠 标 右 键 ,从 弹出 的 快捷 菜单 中 选择 “设置 算法 参数 ”命令 ， 
系统 将 打开 “算法 参数 ”对 话 框 ,如 图 11.7 所 示 。 在 “ 值 ” 列 中 ,为 要 更 改 的 算法 设置 新 值 ,如 
果 未 在 “ 值 " 列 中 输入 值 ,Analysis Services 将 使 用 默认 参数 值 。 线 性 回归 挖掘 结构 包括 如 
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下 参数 。 
。 FORCE_REGRESSOR: 强制 算法 使 用 指定 的 数据 作为 回归 方程 的 输入 变量 ( 自 变 量 ) 。 
。 MAXIMUM_INPUT_ATTRIBUTES: 指定 算法 可 以 处 理 的 输入 属性 的 最 大 数量 。 
。 MAXIMUM_OUTPUT_ATTRIBUTES: 指定 算法 可 以 处 理 的 输出 属性 的 最 大 


数量 。 


Regression.dmm [设计 ]| Adventure Works DW,dsv [设计 ] 起 二 页 | 
区 把 提 结构 [人 近 拓 本 到 | 夫 近 提醒 型 查看 只 | 且 控 据 惟 确 性 图 表 | 矿 控 据 模 型 预测 
卉 地基 | X 


六 Tine Index 
攻 gaantity 
[从 和 ont 


说 明 : 
A te = 
[Enieprke Echtion] 


上 | 


my | mw | [as ] mn | ma | 
# 


图 11.7 设置 回归 分 析 算 法 参数 


(6) 建立 线性 回归 挖掘 模型 。 
选择 “挖掘 模型 查看 器 ”选项 卡 .程序 问 是 否 建 立 部 署 项 目 , 选 择 * 是 ”. 在 接 下 来 的 “处 理 


挖掘 模型 "页 上 单 击 “ 运 行 ” 按 钮 ,出现 “处 理 进度 ”页 ,如 图 11. 8 所 示 。 
在 图 11. 8 中 ,处 理 进度 完成 之 后 , 单 击 “ 关 闭 ” 按 钮 , 建 模 完成 。 


(7) 查看 挖掘 结果 。 
再 次 选择 “挖掘 模型 查看 器 ”选项 卡 , 对 vTimeSeries 数据 集 进 行 线性 回归 的 结果 如 


图 11.9 所 示 。 
根据 Microsoft 线性 回归 分 析 的 计算 结果 ,最 终 得 到 的 回归 方程 为 


Quantity=63. 520 十 0. 0003 * (Amount 一 182770. 113) 


可 以 转化 为 
Quantity 一 8. 69 十 0. 0003 * Amount 
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日 (命令 
日 攻 对 挖掘 结构 ?Regression' 的 处 理 已 成 功 完成 。 
鲜 y 开始 时 间 : 2008-9-18 23:39:57 ; 结束 时 间 : 2008-9-18 23:40:01 ; 持续 时 间 : 0:00:04 
田 艺 对 挖掘 模型 Regression" 的 处 理 已 成 功 完成 。 
田 {t 对 维度 Regression ~MC-Time Index' 的 处 理 已 成 功 完 成 。 
日 国 对 多 维 数 据 集 Regression ~MC' 的 处 理 已 成 功 完成 。 
国 开始 时 间 : 2008-9-18 23:39:58 ; 结束 时 间 : 2008-9-18 23:39:59 ; 持续 时 间 : 0:00:01 
田 [ll 对 度量 值 组 ”CaseDetai ~MG' 的 处 理 已 成 功 完成 。 


状态 ; 


局 处 理 已 成 功 。 


停 重新 处 理 (R) | 查看 详细 信息 (y),， | 复制 (0) 
关闭 才 助 届 史 


图 11.8 回归 分 析 挖掘 模型 处 理 进 度 


Regression.dmm [设计 ]| Adventure Works DW.dsv [设计 ] | 起 茹 页 ] vx 

世 挖 所 结构 | 人 挖 据 便 型 「 避 。 按 扼 模 型 查看 项 | 全 挖 据 准 确 性 图 表 | 元 控 据 模型 预测 

起 志 模型 : [eeression 可 去 看 委 :Pcrosort Tree Viewer 可 3 

决策 树 | 依 积 关系 网 络 | 

@|a| IS| 到 | 村 [| our 司 扶 认 扩展 : 3 个 绝 别 
直方 田 条 数 : [6 习 青 景 | 全 | 显示 级 别 1 一 一 一 


Quantity = 63.520+0.0003*(Amount-182,770.113) 


| _ 控 气 图 例 局 部 署 进 度 


图 11.9 线性 回归 分 析 结 果 
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11.2 Logistic 回归 模型 


线性 回归 模型 的 因 变 量 是 连续 的 ,不 太 适 合 因 变 量 Y 为 二 分 变量 (例如 , 因 变 量 Y 的 具 
体 取 值 为 1 时 表示 购买 了 产品 , 因 变量 Y 的 具体 取 值 为 0 时 表示 没有 购买 产品 ) 的 场合 。 在 
因 变 量 为 二 分 变量 时 一 般 采 用 Logistic 回归 模型 (逻辑 回归 模型 ) 的 形式 ,用 极 大 似 然 估 计 
法 (maximum likelihood estimate) 求 解 模 型 中 的 参数 。 


112.1 Logistic 回归 模型 的 参数 估计 


假设 给 定 的 数据 集 为 D={(Cza ze，…zaiy)|1i 一 1,2,…,2)} ,其 中 数据 样本 (za ,x ，…， 
za ) 分 别 对 应 个 自 变量 (在 数据 挖掘 中 称 为 描述 属性 )Xi,X,,…,X 的 具体 取 值 ; w (一 
1,2,…,n) 代 表 因 变量 Y 的 具体 取 值 ,其 值 只 能 为 0 或 者 1。 

给 定 上 述 条 件 之 后 ,Logistic 回归 模型 如 式 (11-16) 所 示 。 


In(TEE)- B+BX +BXs + tat (11-16) 


式 (11-16) 中 的 PP 为 Y 取 值 为 1 的 概率 ,P/(1 一 P) 称 为 发 生 比 (odds) ,发生 比 的 对 数 
取 值 范围 在 (一 ,十 吕 ) 之 间 。 根 据 Logistic 回归 模型 的 表达 式 可 以 推导 出 Y 取 值 为 1 的 
概率 的 估计 值 ,如 式 (11-17) 所 示 。 该 表达 式 可 以 保证 所 估计 的 概率 在 0 一 1 之 间 。 
@ ‘PotB Xi+P, Xat"tB XE) 
1 十 eBotB Xt Xt tA 
将 自 变 量 Xi ,Xs，,…,X 的 具体 取 值 代入 式 (11-17) 中 ,可 以 得 到 各 个 y; 取 值 为 1 的 概率 的 


估计 值 P;(i=1,2,…,n)。 

在 统计 软件 中 对 于 Logistic 回归 模型 通常 采用 极 大 似 然 估计 法 来 估计 回归 系数 。 所 谓 
极 大 似 然 估计 ,就 是 根据 “使 似 然 函 数 取 最 大 值 ”的 原则 求解 回归 系数 。 对 于 Logistic 回归 
模型 ,其 似 然 函 数 的 表达 式 为 


(11-17) 


L= 1 Pro- Pym (11-18) 
i=1 


对 上 式 两 边 取 对 数 , 然 后 根据 求 极 值 的 原理 对 未 知 参 数 求 一 阶 偏 导数 ,可 以 得 到 似 然 方 
程 ,再 根据 似 然 方 程 求解 未 知 参数 。 在 这 里 ,根据 似 然 函 数 得 到 的 似 然 方 程 关于 未 知 参 数 是 
非 线性 的 ,因而 需要 在 计算 机 中 通过 迭代 的 方法 进行 求解 ,计算 过 程 比较 复杂 ,这 些 过 程 都 
能 通过 统计 软件 来 完成 。 


1122 统计 软件 中 Logistic 回 归 的 结果 分 析 


在 统计 软件 中 进行 Logistic 回归 一 般 是 按 11. 2. 1 节 中 的 方法 进行 估计 的 。 表 11. 3 的 
数据 中 ,Y 表示 肾 细胞 癌 转 移 情 况 ( 有 转移 时 Y 的 值 为 1; 无 转移 时 Y 的 值 为 0); Xi 表示 
肾 细胞 癌 血 管内 皮 生 长 因子 (VEGF) ,其 阳性 表述 由 低 到 高 共 3 个 等 级 ; X, 表示 肾 癌 细 胞 
核 组 织 学 分 级 ,由 低 到 高 共 4 级 。 下 面 根据 给 定数 据 估计 Y 对 X, 和 Xs: 的 Logistic 回归 
方程 。 
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国 据 仓库 与 数据 挖掘 
表 11.3 Logistic 回归 的 数据 集 
次 X, Y Xl Xs 
0 加 2 0 1 2 
0 1 1 1 3 : 
0 2 4 0 1 2 
1 3 4 1 3 3 
1 3 3 0 1 2 
0 1 2 0 六 
0 1 1 3 4 
0 1 3 i 2 4 
0 | 1 0 2 2 
0 3 有 1 3 3 
0 3 4 0 2 2 
2 4 0 1 4 
0 3 1 3 4 


许多 统计 软件 都 可 以 进行 Logistic 回归 ,本 节 使 用 统计 软件 SPSS。 在 SPSS 中 输入 数 
据 , 选 择 Analyze 菜单 的 Regression 命令 ,选择 Binary Logistic, 在 经 过 一 系列 设 定 后 可 以 
得 到 回归 结果 。 部 分 计算 结果 如 表 11.4 所 示 。 表 中 包括 回归 系数 、 估 计量 的 标准 误差 和 假 
设 检 验 的 p 值 。 其 中 ,p。 12. 328,b, =2. 413,b, =2. 413。 

表 11.4 SPSS 软件 Logistic 回归 的 结果 


系数 标准 误差 值 
和 2. 413 1. 196 0.043 604 
X: 2. 096 1.088 0. 053 988 
常数 项 一 12.328 5.431 0.023 195 


根据 表 11. 4 估计 出 的 逻辑 回归 结果 为 
p exp(— 12. 328 + 2.413X' + 2. 096X,) 
1 十 exp( 一 12.328 十 2.413Xi 十 2.096X,) 


可 以 根据 上 式 对 Y 的 取 值 进行 预测 : 如 果 Y 取 值 为 1 的 概率 P 二 0.5, 就 预测 Y 的 取 值 
为 1; 否则 其 预测 值 为 0。 


112.3 SQL Server 2005 中 的 Logistic 回归 应 用 


本 节 讲 述 如 何 使 用 SQL Server 2005 中 的 Logistic 回归 ,使 用 的 数据 集 是 SQL Server 
2005 的 Adventure Works DW 数据 库 中 的 vTargetMail 数据 集 。 

SQL Server 2005 中 的 Logistic 回归 算法 是 Microsoft 神经 网 络 算法 的 特例 ,不 是 前 面 
讲 到 的 极 大 似 然 估计 方法 。 下 面 给 出 相关 操作 步 又 。 

(1) 创建 Analysis Services 项 目 。 

(2) 创建 数据 源 。 

(3) 创建 数据 源 视 图 。 

上 述 三 个 步骤 与 5. 3. 5 节 中 的 步骤 (1)、(2) 和 (3) 相 同 ,这 里 不 再 袭 述 。 

(4) 创建 “逻辑 回归 ?挖掘 结构 。 

在 解决 方案 资源 管理 器 中 ,右键 单 击 “ 挖 掘 结 构 ”, 从 弹出 的 快捷 菜单 中 选择 “新 建 挖掘 
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结构 ”命令 ,系统 将 打开 数据 挖掘 向 导 。 在 “欢迎 使 用 数据 挖 气 向导” 页 上 , 单 击 “ 下 一 步 ” 按 
钮 。 在 “选择 定义 方法 "页 上 ,确认 已 选中 “从 现 有 关系 数据 库 或 数据 仓库 ”, 再 单 击 “ 下 一 步 ” 
按钮 。 在 “选择 数据 挖掘 技术 ”页 的 “您 要 使 用 何 种 数据 挖掘 技术 ?” 下 拉 列 表 中 选择 
“Microsoft 逻辑 回归 ?选项 ,如 图 11. 10 所 示 。 


alyl 
选择 数据 控 气 技术 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 最 适用 的 数据 挖掘 技术 . py 多 | 


< 上 -4 四 | 下 -5 思 | = >> | 职 隐 


图 11. 10 选择 Microsoft 逻辑 回归 作为 挖掘 技术 


在 图 11. 10 中 , 单 击 * 下 一 步 ?按钮 ,在 随后 出 现 的 “选择 数据 源 视图 ”页 上 ,请 注意 已 默 
认 选 中 Adventure Works DW。 单 击 * 选 择 数据 源 视图 ”页 上 的 “下 一 步 ?按钮 ,在 “指定 表 类 
型 "页 上 选中 vTargetMail 表 右 边 “ 事 例 ” 列 中 的 复 选 框 ,如 图 11. 11 所 示 。 


<9lxl 
指定 表 类 型 
指定 分 析 时 要 使 用 的 表 类 型 。 pa 
输入 表 (D: 
这 事例 | 二 大 
加 回 口 


< |[L 下 -So | > | 了 . 


图 11.11 选择 vTargetMail 作为 事例 表 


在 图 11. 11 中 单 击 “ 下 一 步 ” 按 钮 ,出 现 “ 指 定 定型 数据 "页 ,如 图 11. 12 所 示 。 在 图 11. 12 
中 ,确保 已 选中 CustomerKey 列 右边 * 键 ? 列 中 的 复 选 框 , 选 中 类 别 属性 BikeBuyer 列 右边 
的 “可 预测 ” 复 选 框 ,并 且 从 属性 列表 中 选中 Age、NumberCarsOwned、TotalChildren、 
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EnglishEduation .FrenchEduation .SpanishEduation 和 CommuteDistance 7 个 描述 属性 的 
“输入 " 复 迁 框 。 


< 上 |[ 一 步 ) | 充 忆 (>>| | 取消 用 


图 11.12 指定 逻辑 回归 中 所 用 的 属性 


在 图 11. 12 中 单 击 “下 一 步 ?按钮 ,在 “指定 列 的 内 容 和 数据 类 型 "页 上 单 击 “检测 ”按钮 ,如 
图 11. 13 所 示 ,SQL Sever 2005 会 对 数据 的 类 型 进行 检测 ,重要 的 一 个 变动 是 Bike Buyer 的 
属性 由 Continuous 变 为 了 Discrete。 如 果 没 有 这 个 步骤 计算 结果 可 能 不 正确 。 在 图 11. 3 中 单 
击 “ 下 一 步 ” 按 钮 ,出 现 “ 完 成 向 导 ” 页 ,如 图 11. 14 所 示 。 


< 数据 挖 拔 向 导 -Iojxl 
指定 列 的 内 容 和 数据 类 型 
指定 挖 据 结构 列 的 内 容 和 数据 类 型 . £ ™ 
挖掘 模型 结构 G) 
列 内 容 类 型 | 数据 类 型 
是 Continmuous Long 
国 Bike Buyer Continmous Long 
国 Connute Distance Discrete Text 
罚 customer Key Key Long 
加 Enalish Education Diserete ~ Text 
国 French Education Discrete Text 
瑟 Nunber Cars Owned Continuous Long 
国 Spanish Education Diserete Text 
下 Total Children Continuous Long 
榨 测 数值 列 的 连续 或 高 葡 数 据 : 


RE 
< 上- 步 加 完成 @ | 取消 网 


11.13 对 属性 进行 检测 
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gly 
完成 向 导 Vv Pe 


为 挖 所 结构 提供 名 称 ， 从 而 完成 数据 挖 扬 向导。 


挖掘 结构 名 称 (MW); 


[| 


挖掘 模型 名 称 (D): 


llogistic 国 允许 钻 职 (DD 


wl 


图 11.14 完成 逻辑 回归 挖掘 结构 向 导 


在 图 11. 14 的 “挖掘 结构 名 称 ” 文 本 框 中 输入 Logistic, 在 “挖掘 模型 名 称 ” 文 本 框 中 输 
入 Logistic, 之 后 单 击 * 完 成 "按钮 ,由 此 逻辑 回归 挖掘 结构 创建 完成 。 系 统 将 打开 挖掘 结构 
设计 器 ,显示 Adventure Works DW 挖掘 结构 视图 ,如 图 11. 15 所 示 。 
=Iolx| 


文件 蛋 ” 蝙 辑 ( 上 ”视图 W 项 目 (E) ”生成 (8) ”调试 (D) ”格式 (0) ”数据 库 (4) ”数据 源 视图 (5) ” 挖 握 模型 (Mw) 工具 (D 
窗口 (W 社区 (CO) 才 助 届 


;加 -加 鲜 | 关 且 访 | 柯 -人 -| |Deveopment -| 可 于 兴国 口 - 
总 Eres 
E E 局 | 名 
[Esc | 
日 也 数据 源 
才 adventure Works DW,ds 
日 - 了 数据 源 视图 
庙 hdventure Works Dw,dsv 
[3 多 维 数 据 集 
名 Custoner kK 蕊 淮 度 
re 日 也 控 卸 结构 
个 French Education 时 customerKey . De 
办 Number Cars Owned GeographyKey 芒 角色 
办 Spanish Education CustomerAlternat,.. , 程序 集 
元 Total Children Title 世 杂 项 
了 irstName 
有 aaleNane 
LastName 
NameStyle 
Birthhate 
NaritalStatus 
正在 创建 项 目 “ogistic.dwproj*,,… 项 目 创 妥 成 功 。 网 


图 11.15 ”Adventure Works DW 逻辑 回归 挖掘 结构 视图 


(5) 设置 逻辑 回归 挖掘 结构 的 相关 参数 。 
在 “挖掘 模型 ?选项 卡 上 单 击 鼠标 右键 ,从 弹出 的 快捷 菜单 中 选择 “设置 算法 参数 "命令 ， 
系统 将 打开 “算法 参数 ”对 话 框 ,如 图 11. 16 所 示 。 如 果 需 要 ,可 以 在 这 里 修改 模型 的 参数 。 
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这 里 都 采用 默认 值 。 


Logisticdmm [设计 ]| ”Adventure Works DW.dsv [设计 ] | 起 她 页 | 


工控 气 结 构 [大 按 握 模型 | 关 挖 把 模型 查看 器 | 加 挖 据 准 确 性 图 表 | 元 挖 据 模 型 预测 
电 是 加 | X 


处 理 挖掘 结构 和 所 有 模型 (局 ， 


区 站 处 理 模型 D)，…， 

攻 Bike Buyer 浏览 模型 (Ww) 

攻 Commute Distance 司 Imput i 

畦 Custoner Key Fa 机 

[$$ English Education 恒 Input 

[办 Preneh Education 司 Input 

[办 Womber Cars Owned 司 Input 

区 semi ZH Tt 

区 Totat K 算法 参数 Es 


MAXIMUM_INPUT_ATTRIBUTES 255 [0,65535] 
MAXIMUM_OUTPUT_ATTRIBUTES 255 [0,65535] 
MAXIMUM_STATES 100 0,[2,65535] 
SAMPLE_SIZE 10000 [0,...) 
说 明 : 
了 维持 错误 在 神经 网 络 学 习 期 间 用 | 
作 停止 条 件 的 一 部 分 。 dition] 

E| 


my | as | [we | ws | ma | 


4 


图 11.16 设置 逻辑 回归 算法 参数 


(6) 建立 逻辑 回归 挖掘 模型 。 

选择 “挖掘 模型 查看 器 ”选项 卡 ,程序 问 是 否 建立 部 署 项 目 ,选择 “是 ”, 在 接 下 来 的 “处 理 
挖掘 模型 "页 上 单 击 “ 运 行 ” 按 钮 出现“ 处 理 进度 ”页 ,如 图 11. 17 所 示 。 

在 图 11.17 0 

(7) 查看 挖掘 结 

再 次 选择 * a "选项 卡 ,就 能 得 到 相关 的 结果 。 在 图 11. 18 中 选择 上 面 的 
“挖掘 准确 性 图 表 ”, 单 击 “ 选 择 事例 表 ” 按 钮 ,在 弹出 的 对 话 框 中 单 击 “ 确 定 ” 按 钮 。 

之 后 ,在 图 11. 19 中 “筛选 用 于 生成 提升 图 的 输入 数据 ”下 面 选择 vTargetMail 表格 中 
的 BikeBuyer。 

完成 以 上 操作 后 ,SQL Sever 会 根据 BikeBuyer 的 实际 值 和 预测 值 对 模型 进行 评价 。 
选择 图 11. 20 中 的 “分 类 矩阵 ?选项 卡 ,可 以 得 到 关于 预测 结果 准确 性 的 分 类 矩阵。 从 
图 11. 20 中 可 以 看 出 ,分 类 正确 (实际 的 类 标号 和 预测 的 类 标号 相同 的 ) 共 有 5595 十 5662 一 
11257 人 , 占 全 部 人 员 的 60. 80%。 


处 理 进度 


挖掘 结构 "Logistic' 的 处 理 已 成 功 完成 。 
加》 开始 时 间 : 2008-9-19 12:19;19 ; 结束 时 间 ; 2008-9-19 12:19:23 ; 持续 时 间 : 0:00:04 
a 医 、 对 挖掘 模型 "ogistic 的 处 理 已 成 功 完成 
对 维度 Logistic ~MC-Customer Key 的 处 理 已 成 功 完成 。 
对 多 准 数据 集 'Logistic ~MC' 的 处 理 已 成 功 完成 
生 》 开始 时 间 : 2008-9-19 12:19:21 ; 结束 时 间 : 2008-9-19 12:19:22 ; 持续 时 间 : 0:00:01 
田 al 对 度量 值 组 ”CaseDetall ~MG' 的 处 理 已 成 功 完成 。 


11.17 逻辑 回归 挖掘 模型 处 理 进度 


logsticdmm[Rit] entre DW [ER x 


日 大 Logistie 

局 ee 

Bike Buyer 

入 Connute Distance 
Custoner Key 
English Education 

入 Prench Education 

unber Cors Owned 

说 Spamish Education 

村 Total chiltren 


图 11. 18 选择 事例 表 
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Ce 


Togisticdmm [设计 ]| Adventure .DW.dev[ 设 计 ] | 起 始 页 | i 
医 \ 挖 扬 结 构 | 和 控 据 模型 | 起 控 气 模型 查看 器 “| < 全 | 控 氟 准确 性 图 表 | 好 控 据 模型 预测 


习 BikeBuyer 
Birthhate 
ComnuteDistance 

国 customerAlternateKey 


国 Costonerkey 司 


扣除 表 . . - | 选择 事例 表 
迟 改 用 按 


千 French Education 
所 nber Cars Owned 
外 Spunish Education 
司 Totu Chilaren 


AddressLinel 
ae:stinez 
phone 

Datepirstpure 

CommuteDistance 


图 11.19 筛选 用 于 生成 提升 图 的 输入 数据 


Logisticdmm [设计 ] Adventure ,,DW.dsv [设计 ] [起 始 页 | 
苯 挖掘 结构 | 人 挖 扬 模 型 | 必 挖 据 模 型 查看 器 ”| 人 | 挖 据 准 确 性 图 表 | 好 挖 扬 模 型 预测 


列 映射 | 提升 图 
| 分 类 短 际 中 的 列 对 应 于 实际 值 ; 行 对 应 于 预 训 值 


[Bike Buyer] 上 Logistie 的 计数 


图 11.20 逻辑 回归 的 结果 


11.3 时 间 序 列 模型 


时 间 序 列 是 指 按照 时 间 的 先后 顺序 所 取得 的 一 系列 数据 ,可 以 是 年 度数 据 、 季 度数 据 、 
月 度数 据 或 其 他 时 间 形 式 的 数据 ,通常 用 Y 一 {Y, 1 一 1,…,n} 来 表示 ,其 中 + 表示 相应 的 时 
间 。 例 如 ,一 家 公司 历年 的 销售 收入 就 构成 一 个 时 间 序 列 。 

对 时 间 序 列 的 未 来 趋势 进行 预测 是 时 间 序列 分 析 的 重要 目的 之 一 。 时 间 序 列 预测 的 常 
用 方法 包括 回归 预测 模型 .指数 平滑 模型 和 ARIMA 模型 等 。 本 节 对 在 实际 中 应 用 比较 广 
泛 的 ARIMA 模型 进行 介绍 ,并 对 SQL Sever 2005 中 的 时 序 分 析 方 法 进行 介绍 。 
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11.3.1 ARIMA 模型 


ARIMA 模型 (autoregressive integrated moving average model) , 求 和 自 回 归 移 动 平均 
模型 产生 于 20 世纪 60 年 代 末 ,Box 和 Jenkins 在 1976 年 对 该 模型 进行 了 系统 阐述 ,所 以 该 
模型 也 被 称 为 Box-Jenkins 模型 。ARIMA 模型 比 其 他 的 统计 预测 技术 要 复杂 一 些 , 但 如 果 
运用 恰当 的 话 ,往往 能 取得 较 好 的 预测 效果 。 

ARIMA 模型 可 以 根据 一 个 时 间 序 列 的 历史 数据 对 未 来 的 数据 进行 预测 ,不 需要 另外 
的 自 变 量 , 因 而 使 用 起 来 非常 方便 。 根 据 模 型 设 定 的 不 同 ,ARIMA 模型 可 以 简化 为 AR 模 
型 .MA 模型 或 者 ARMA 模型 。 

(1) AR 模型 ( 自 回归 模型 )。 对 于 时 间 序 列 Yi ,Y:,…:,Y ,如 果 变 量 的 观测 值 可 以 表 
示 为 其 以 前 的 p 个 观测 值 的 线性 组 合 加 上 随机 误差 项 ,如 式 (11-19) 所 示 , 则 该 模型 称 为 
户 阶 自 回归 模型 ,用 AR(p) 表 示 。 模 型 中 m 为 常数 项 ,a, 表示 相互 独立 的 随机 误 
差 项 。 

Y=@T oY TT ppY, ta (11-19) 

(2) MA 模型 (移动 平均 模型 )。 如 果 一 个 时 间 序 列 的 观测 值 可 以 表示 为 当前 和 先前 的 
g 个 随机 误差 项 的 线性 组 合 ,如 式 (11-20) 所 示 , 则 该 模型 称 为 g 阶 移动 平均 模型 ,用 MA(g) 
表示 。 模 型 中 的 y 为 时 间 序 列 的 均值 , 表示 相互 独立 的 随机 误差 项 。 

Y 一 Ap 十 ae 一 9a- 一 … 一 0a- (11-20) 

(3) ARMA 模型 。ARMA(p,g) 模 型 是 AR(p) 和 MA(9) 模 型 的 组 合 ,其 表达 式 如 
式 (11-21) 所 示 。 

Y= po Yt 二 oY -十 we 一 ai 一 …… 一 0ai (11-21) 
根据 Box、Jenkins 的 建 模 思想 ,只 有 时 间 序 列 满足 平稳 性 和 可 逆 性 的 要 求 时 上 述 模型 
才 有 意义 。 平稳 的 时 间 序 列 就 是 统计 特性 不 随时 间 平 移 而 变化 的 序列 。 长 期 有 持续 的 上 升 
或 下 降 趋 势 , 或 者 随 季节 变动 而 呈现 出 规律 性 变化 的 时 间 序 列 一 定 是 不 平稳 的 。 对 于 不 平 
稳 的 时 间 序 列 ,必须 先 转化 为 平稳 的 时 间 序 列 以 后 才能 建立 ARMA 模型 。 差 分 是 最 常用 
的 时 间 序 列 平稳 化 的 手段 。 所 谓 差分 ,就 是 用 时 间 序 列 的 当前 值 减 去 前 面 一 个 观测 值 , 即 
YY 一 Y,-1。 相 隔 s 的 差分 为 Y, 一 Y,-, ,一 般 用 于 周期 为 ; 的 季节 性 数据 。 对 于 复杂 的 时 间 序 
列 , 可 能 需要 进行 4 次 差分 才能 使 变换 后 的 时 间 序 列 平稳 。ARIMA 模型 可 以 用 式 (11-22) 
表示 。ARIMA 模型 的 建 模 过 程 就 是 先 通过 d 阶 的 差分 把 不 平稳 的 序列 转化 为 平稳 序列 ， 
再 对 差分 后 的 序列 建立 ARMA 模型 。 
,= — BYY, 


(11-22) 
Z=@ 和 oi 二 pL = da =O— Oa-e 
在 式 (11-22) 中 ,符号 B 表示 后 移 算 子 。 
一 阶 差分 用 公式 表示 为 


(I—BY,=Y,—Y. 
二 阶 差 分 用 公式 表示 为 
(I— BY = (1—2B+B ,= — + Ys 
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如 果 时 间 序 列 中 包含 季节 成 分 ,模型 中 还 可 以 包含 季节 差分 、 季 节 自 相关 和 季节 移动 平 
均 的 项 ,这 时 的 模型 称 为 季节 ARIMA 模型 。 模 型 的 公式 比较 复杂 ,这 里 不 做 介绍 


11.32 建立 ARIMA 模型 的 步骤 


一 般 来 说 ,建立 ARIMA 模型 需要 以 下 几 个 步骤 。 

(1) 根据 时 间 序 列 的 图 形 或 者 其 他 方法 对 序列 的 平稳 性 进行 判断 。 包 含 长 期 趋势 和 周 
期 性 变化 的 时 间 序 列 一 定 是 不 平稳 的 。 

(2) 对 非 平稳 序列 进行 平稳 化 处 理 , 一 般 使 用 差分 的 方法 。 在 差分 时 需要 确定 差分 的 
阶 数 , 即 a 的 取 值 。 

(3) 对 于 差分 后 的 平稳 序列 ,根据 时 间 序 列 模型 的 识别 规则 建立 相应 的 模型 ,也 就 是 确 
定 模型 中 p 和 g 的 值 。 模 型 识别 中 最 主要 的 工具 是 自 相关 函数 和 偏 相关 函 数 。 自 相关 函数 
描述 了 时 间 序 列 的 当前 序列 和 滞后 的 相关 系数 ; 偏 相 关 函 数 描述 了 给 定 中 间 序 列 的 条 件 下 
当前 序列 和 滞后 序列 的 相关 系数 。 自 相关 函数 和 偏 相 关 函 数 的 图 形 可 以 帮助 使 用 者 初步 判 
断 时 间 序 列 所 适合 的 模型 形式 和 自 回归 ,移动 平均 的 阶 数 。 

(4) 确定 了 模型 中 p、d、g 的 值 , 接 下 来 就 需要 对 模型 中 的 p 十 g 个 参数 进行 估计 了 。 
ARMA 模型 的 参数 估计 可 以 采用 最 小 二 乘 估计 或 者 极 大 似 然 估 计 等 。 参 数 估计 的 过 程 比 
较 复 杂 , 但 借助 于 统计 软件 的 帮助 在 实际 应 用 中 这 已 经 不 是 一 个 问题 了 。 

(5) 估计 出 模型 的 参数 后 ,通常 需要 借助 于 一 些 统计 方法 对 模型 中 参数 的 显著 性 、 拟 合 
效果 等 进行 检验 和 分 析 。 对 模型 残 差 的 自 相关 函数 和 偏 自 相关 函数 进行 分 析 是 检验 的 重要 
内 容 , 如 果 残 差 序 列 的 自 相 关系 数 和 偏 自 相 关系 数 在 统计 上 都 不 显著 ,就 可 以 认为 模型 是 可 
接受 的 。 

(6) 通过 检验 的 模型 就 可 以 用 来 进行 预测 了 。 预 测 通常 通过 统计 软件 来 实现 ,手工 计 
算 对 于 包含 MA 项 的 模型 来 说 困难 比较 大 。 


11.3.3 使 用 统计 软件 估计 ARIMA 模型 


ARIMA 模型 的 模型 设 定 和 估计 方法 比较 复杂 ,需要 较 多 的 专业 知识 。 在 实际 应 用 中 ， 
许多 统计 软件 都 可 以 自动 搜索 最 优 的 模型 形式 ,估计 出 模型 并 进行 预测 。 下 面 使 用 统计 软 
件 SPSS 对 给 定数 据 进行 预测 。 

表 11. 5 所 示 为 我 国 1952 一 1988 年 的 农业 国民 收入 指数 。 对 这 一 序列 建立 ARIMA 模 
型 。 显 然 , 该 序列 有 着 显著 的 趋势 ,为 非 平稳 序列 ,需要 先进 行 差 分 。 从 图 形 看 一 阶 差分 后 
的 序列 可 以 认为 是 平稳 的 。 通 过 对 差分 序列 的 自 相关 和 偏 自 相关 函数 的 分 析 , 对 序列 拟 合 
ARIMA(0,1,1) 模 型 。 

在 SPSS 中 输入 数据 ,建立 相应 的 时 间 变 量 ,选择 Analyze 一 Time Series 一 Creat 
Models, 经 过 进一步 的 设 定 后 给 出 的 估计 结果 如 下 

(1—B)Y, = 4.996 十 a: 十 0.672a,- 

从 图 11. 21 可 以 看 出 :时间 序列 的 实际 值 和 根据 模型 计算 的 拟 合 值 是 比较 接近 的 。 根 

据 计 算 ,模型 的 R* 值 等 于 0. 981 ,非常 接近 于 1. 说 明 拟 合 效 果 很 好 。 
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表 11.5 我 国 1952 一 1988 年 的 农业 国民 收入 指数 


年 份 农业 国民 收入 指数 年 份 农业 国民 收入 指数 
1952 100 1971 142 
1953 101.6 1972 140.5 
1954 103.3 1973 158,1 
1955 天 二 1974 159.2 
1956 I 1975 162.3 
1957 120.1 1976 159.1 
1958 120.3 1977 155.1 
1959 100.6 1978 161.2 
1960 83.6 1979 171.5 
1961 84.7 1980 168.4 
1962 88.7 1981 180.4 
1963 98.9 1982 201.6 
1964 111.9 1983 218.7 
1965 122.9 1984 247 
1966 131.9 1985 253.7 
1967 134.2 1986 261.4 
1968 131.6 1987 273.2 
1969 132.2 1988 279.4 
1970 139.8 
300 | — observed 
250 
， 200 
名 
§ 
z 
150 
100 
50 


图 11.21 时 间 序 列 的 实际 值 和 拟 合 值 
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1134 SQL Server 2005 中 的 时 间 序 列 分 析 


SQL Server 2005 中 的 Microsoft 时 间 序 列 分 析 使 用 的 算法 是 Microsoft 决策 树 算 法 的 
特例 。 下 面 给 出 利用 Microsoft 时 间 序 列 分 析 进 行 数据 分 析 的 操作 步骤 ,使 用 的 数据 集 是 
SQL Server 2005 的 Adventure Works DW 数据 库 中 的 vTimeSeries 数据 集 。 

(1) 创建 Analysis Services 项 目 。 

(2) 创建 数据 源 。 

(3) 创建 数据 源 视图 。 

上 述 三 个 步骤 与 11. 1. 5 节 中 的 步骤 (1)、(2) 和 (3) 相 同 , 这 里 不 再 袭 述 。 

(4) 创建 时 间 序 列 挖掘 结构 。 

在 解决 方案 资源 管理 器 中 ,右键 单 击 * 挖 气 结 构 ”, 从 弹出 的 快捷 菜单 中 选择 新建 挖掘 
结构 "命令 ,系统 将 打开 数据 挖掘 向 导 。 在 “欢迎 使 用 数据 挖掘 向 导 ” 页 上 , 单 击 “下 一 步 ? 按 
钮 。 在 “选择 定义 方法 "页 上 ,确认 已 选中 “从 现 有 关系 数据 库 或 数据 仓库 ”, 青 单 击 “ 下 一 步 ” 
按钮 。 在 “选择 数据 挖 所 技术 ”页 的 “您 要 使 用 何 种 数据 挖掘 技术 ?” 下 拉 列 表 中 选择 
“Microsoft 时 序 ” 选 项 ,如 图 11. 22 所 示 。 

6 


选择 数据 控 气 技术 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 最 适用 的 数据 挖掘 技术 。 入 


| 
图 11.22 选择 Microsoft 时 序 作为 挖掘 技术 


在 图 11. 22 中 , 单 击 “ 下 一 步 ” 按 钮 ,在 随后 出 现 的 “选择 数据 源 视 图 "页 上 ,请 注意 已 默 
认 选 中 Adventure Works DW。 单 击 “ 选 择 数 据 源 视图 "页 上 的 “下 一 步 ” 按 钮 ,在 “指定 表 类 
型 "页 上 选中 vTimeSeries 表 右 边 “ 事 例 ” 列 中 的 复 选 框 ,如 图 11. 23 所 示 。 

在 图 11. 23 中 , 单 击 “ 下 一 步 ” 按 钮 ,出 现 “ 指 定 定型 数据 ”页 ,如 图 11. 24 所 示 。 在 
图 11. 24 中 ,依次 选中 TimeIndex 和 ModelRegion 列 右边 “ 键 ” 列 中 的 复 选 框 ,Amount 列 右 
边 的 “输入 ”和 “可 预测 " 复 选 框 。 


233 
第 11 章 


二 可 
指定 表 类 型 
指定 分 析 时 要 使 用 的 表 类 型 。 A | 
输入 表 (D); 
FH | WE | 
3 区 口 
R 


< 上 加 | [下 = 四 | FE | RW 上 


图 11.23 选择 vTimeSeries 作为 事例 表 


《 数据 挖 投向 导 


指定 定型 数据 
指定 分 析 中 所 用 的 列 。 A 


Re [= 画面 
福 。 ModeRegon 局 | 局 口 

Quanktky 口 口 口 
福 。 Timelndex 5 口 口 


< 上 -4 四 |[LT-s | Re>> | mm | 


图 11.24 指定 时 序 分 析 中 所 用 的 属性 


在 图 11. 24 中 单 击 * 下 一 步 ? 按 钮 ,在 “指定 列 的 内 容 和 数据 类 型 "页 上 单 击 * 下 一 步 ? 按 
钮 ,出 现 “ 完 成 向 导 ” 页 ,如 图 11. 25 所 示 。 

在 图 11. 25 的 “挖掘 结构 名 称 ” 文 本 框 中 输入 Time Series ,在 “挖掘 模型 名 称 ” 文 本 框 中 
输入 Time Series, 之 后 单 击 “ 完 成 ”按钮 ,由 此 时 序 挖掘 结构 创建 完成 ,系统 将 打开 挖掘 结构 
设计 器 ,显示 Adventure Works DW 挖掘 结构 视图 ,如 图 11. 26 所 示 。 

(5) 设置 时 间 序 列 挖掘 结构 的 相关 参数 。 

在 “挖掘 模型 "选项 卡 上 单 击 鼠标 右键 ,从 弹出 的 快捷 菜单 中 选择 “设置 算法 参数 ” 命 
今 , 系 统 将 打开 “算法 参数 "对话 框 ,如 图 11. 27 所 示 。 由 于 本 节 使 用 的 数据 是 月 度数 据 ， 
PERODICITY_HINT( 周 期 性 的 建议 ) 一 项 的 数值 要 改 为 112} 。 
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galxl 
完成 向 导 “x 
为 近 所 结构 提供 名 称 ， 从 而 完成 数据 近 据 向 导 - 


挖 气 结 构 名 称 (M): 


Pe seres 


挖 扬 模 型 名 称 (D): 


[neseresT 四 取 (D 


图 11.25 完成 时 序 挖掘 结构 向 导 


qo timeSeries - Microsoft Visual Studio 


文件 (E) 编辑 ( 吕 视图 WW [| 惠 @ | 生成 g) 调 到 (0D) ”格式 (0) ”数据 库 (A) ”数据 源 视图 (5) ” 挖 据 模 型 (M) ”工具 (D) 
窗口 () 社区 (C) ”帮助 (H) 


图 > 加 本 | 区 中 嫩 | 9 CC -| lovworment -| 网 卫 交 国 口 - 
上 = xc 


日 也 数据 源 


日 省 Time Series Adventure Works DW,ds 
日 国 列 日 - 褒 数据 源 视图 
医 mount 地 adventure Works DW,dsv 
罚 model Region 
赔 Tine Index 


NodelRegion 
TimeIndex 


Quantity 
Amount 


图 11.26 Adventure Works DW 时 序 挖掘 结构 视图 


(6) 建立 时 间 序 列 挖掘 模型 。 

选择 “挖掘 模型 查看 器 ”选项 卡 ,程序 问 是 否 建立 部 署 项 目 ,选择 “是 ”, 在 接 下 来 的 “处 理 
挖掘 模型 "页 上 单 击 “ 运 行 ” 按 钮 ,出 现 “ 处 理 进度 "页 ,如 图 11. 28 所 示 。 

在 图 11. 28 中 ,处 理 进度 完成 之 后 , 单 击 “ 关 闭 ” 按 钮 . 建 模 完成 。 
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Time Series.dmm [设计 ]| Adventure Works DW.dsv [设计 ] | v Time 5eres.dmm[ 设 计 ] | 起 二 页 | 
区 挖 据 结构 [从 挖 据 模 型 | 六 挖 据 模型 查看 器 | 加 挖 据 准 确 性 图 表 | 好 挖 据 模型 预测 


民有 有 |X 


Time Series 


处 理 挖掘 结构 和 所 有 模型 (A)..… 


车 oant 恒 Predict 处 理 模型 (2)..… 
F 冯 Ky 浏览 模型 (w) 
面 二 Ini 三 Ky 于 建 近 据 模型 
设置 算法 参政 (SN 
X WD) 


全 尾 丝 B) 


HISTORIC_MODEL_COUNT 1 [o,100] 
HISTORIC_MODEL_GAP 10 Td 
MAXIMUM_SERIES_VALUE +1E308 [column ma... 
MINIMUM_SERIES VALUE -1E308 [ucolumn … 
MINIMUM_SUPPORT 10 [Lb...) 
MISSING VALUE_SUBSTITUTION None None,Previ 
PERIODICITY_HINT {1} +.ulist of int,,, 


ee 
近 于 0 的 数 ， 则 只 检测 周期 性 强 的 数据 的 周期 。 
可 


_ | we | Cw | we | wow | 
4 


图 11.27 设置 时 序 算法 参数 


[°° 


日 (命令 
日 艺 对 挖 气 结 构 Time 5eries' 的 处 理 已 成 功 完 成 
生 ) 开始 时 间 ; 2008-9-19 12:48:35 ; 结束 时 间 ; 2008-9-19 12;46:38 ; 持续 时 间 ; 0:00:03 
图 医 \ 对 挖掘 模型 Time Series' 的 处 理 已 成 功 完成 . 
图 也 对 准 度 "Time Series ~MC-Model Region' 的 处 理 已 成 功 完成 。 
日 各 对 多 维 数 据 集 "Time 5eries ~MC' 的 处 理 已 成 功 完成 。 
生 》 开始 时 间 ; 2008-9-19 12:48:35 ; 结束 时 间 ; 2008-9-19 12;48:36 ; 持续 时 间 : 0:00:01 
轩 lu 对 度量 值 组 CaseDetal ~MG' 的 处 理 已 成 功 充 成 。 


[ 瑟 1 与 j | 重新 处 理 (R) 查看 详细 信息 (WW.， 复制 (0) 
_xao | am | 


4 


图 11. 28 ”时序 挖掘 模型 处 理 进 度 
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(7) 查看 挖掘 结果 。 


再 次 选择 “挖掘 模型 查看 器 ”选项 卡 ,对 vTimeSeries 数据 集 进行 时 间 序 列 分 析 的 结果 


如 图 11. 29 和 图 11. 30 所 示 。 


EE iii 4 


Mnount (R250 Europe, -2) 15 
Mmount (R250 Europe, -4) -0. 421 
Mmount (T1000 Europe... 0.305 


Amounk = 92647. nel re REE 
(R250 Europe,-4) + 0.305 * Amount(T1000 Europe,-1) 


图 11.29 时 序 挖掘 结果 (1) 


Go!" Koozod ” 2o0r07 " Zooz! Zeo03 ™ Zo0307 ™ oor: Zoro ™ 200407 7 Zoots 


CA 


图 11. 30 时 序 挖掘 结果 (2) 


Microsoft 时 序 算法 可 以 为 数据 集中 的 每 个 非 重复 序列 生成 模型 。 在 这 个 例子 中 ,数据 
集中 每 个 区 域 都 包含 一 段 时间 的 销售 额 数据 ,所 以 该 算法 将 为 每 个 区 域 创建 单独 的 时 序 模 
型 。 图 11. 29 是 对 T1000 Pacific 序列 建立 的 预测 模型 。 图 11. 30 是 模型 对 其 中 6 个 序列 


的 预测 情况 。 该 


图 同时 显示 历史 数据 和 未 来 数据 。 未 来 数据 带 有 底 纹 , 以 便 与 历史 数据 区 
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分 


11.4 小 结 


本 章 介绍 了 统计 学 中 的 线性 回归 模型 .逻辑 回归 模型 和 时 间 序 列 模型 的 基本 概念 、 参 数 
估计 方法 和 主要 应 用 。 

线性 回归 模型 通过 线性 回归 方程 来 描述 因 变量 和 自 变量 之 间 的 线性 关系 ,一 般 采 用 最 
小 二 乘法 来 进行 参数 估计 。 在 统计 学 中 ,得 到 了 参数 的 估计 值 后 还 要 对 模型 的 拟 合 效 果 、 自 
变量 的 显著 性 和 模型 的 显著 性 进行 统计 检验 。 通 过 检验 可 以 发 现 模型 中 存在 的 问题 并 对 模 
型 进行 改进 。 通 过 了 各 项 检验 , 拟 合 效 果 较 好 的 模型 可 以 用 来 进行 预测 。 

逻辑 回归 模型 是 一 类 特殊 的 回归 模型 ,适用 于 因 变 量 的 取 值 为 二 分 变量 的 情况 。 这 种 
情况 不 太 适 合用 线性 回归 模型 进行 分 析 。 逻 辑 回归 模型 最 大 的 特点 是 建立 发 生 比 的 对 数 
In[LP/(1 一 P)] 与 自 变 量 的 线性 模型 ,对 Y 等 于 1 的 概率 已 进行 估计 。 这 种 方法 的 优点 是 可 
以 保证 估计 出 的 PP 值 在 [0,1] 之 间 。 

ARIMA 模型 是 最 常用 的 时 间 序 列 模型 之 一 。 其 建 模 的 基本 思想 是 : 先 通过 差分 把 非 
平稳 的 时 间 序 列 平稳 化 ,然后 根据 平稳 序列 的 自 相 关 和 偏 自 相 关 函 数 建立 序列 当前 值 对 序 
列 的 滞后 值 和 随机 误差 项 的 当前 值 及 其 滞后 值 的 回归 模型 。 

在 统计 学 中 ,上 述 模型 一 般 通过 最 小 二 乘 估计 或 者 极 大 似 然 估 计 的 方法 进行 参数 估计 。 
SQL Sever 2005 中 则 采用 了 不 同 的 估计 方法 : Microsoft 线性 回归 和 时 序 分 析 使 用 的 算法 
是 Microsoft 决策 树 算法 的 特例 ; Logistic 回归 算法 是 Microsoft 神经 网 络 算法 的 特例 。 


11.5 习题 


1. 试 述 线性 回归 模型 的 参数 估计 过 程 。 

2. 线性 回归 模型 和 Logistic 模型 所 处 理 的 因 变 量 的 区 别 。 

3. 试 述 建立 ARIMA 模型 的 基本 步骤 。 

4. 在 SQL Sever 2005 中 建立 一 个 数据 表 . 输 入 表 11. 1 的 数据 .使 用 Microsoft 线性 回 
归 对 模型 进行 估计 。 

5. 在 SQL Sever 2005 中 建立 一 个 数据 表 , 输 入 表 11. 3 的 数据 ,使 用 Microsoft 
Logistic 回归 对 模型 进行 估计 。 

6. 在 SQL Sever 2005 中 建立 一 个 数据 表 . 输 入 表 11. 5 的 数据 ,使 用 Microsoft 时 序 分 
析 对 模型 进行 估计 。 
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20 世纪 90 年 代 以 来 , 随 着 Internet 和 Web 技术 的 飞速 发 展 和 普及 , 信 
息 获取 已 经 从 手工 获取 发 展 到 计算 机 获取 ,以 及 到 现在 的 通过 网 络 进行 信息 
获取 。 要 在 浩如烟海 的 网 络 世 界 里 以 及 文本 中 找到 所 需 信 息 ,需要 一 种 能 够 
发 现 网 页 或 文本 内 部 隐 含 信息 的 工具 ,文本 挖掘 技术 应 运 而 生 。 可 以 利用 各 
种 数据 挖掘 方法 ,如 分 类 学 习 、 关 联 挖掘 和 聚 类 分 析 等 ,处 理 网 页 和 文本 中 各 
种 复杂 类 型 的 数据 对 象 ,以 便 从 浩瀚 的 因特网 和 文本 信息 海洋 中 挖掘 出 用 户 
所 需要 的 信息 和 知识 。 


12.1 引 例 


下 面 有 3 段 文本 内 容 。 

(1) 今 晚 在 北京 大 学 体育 馆 进行 的 乒乓 球 女 子 团体 决赛 中 ,中 国 队 以 总 
比分 3 : 0 战胜 新 加 坡 队 , 为 中 国 乒 乓 球 队 夺 得 了 本 届 奥 运 会 的 第 一 枚 金牌 ， 
这 也 是 在 奥运 会 历史 上 产生 的 首 枚 乒乓 球 女子 团体 金牌 。 这 枚 金牌 是 中 国 
体育 代表 团 在 本 届 奥 运 会 上 的 第 33 枚 金牌 ,已 经 超越 了 雅典 奥运 会 32 枚 金 
牌 的 纪录 ,在 中 国 奥运 史上 书写 了 新 的 历史 (文字 来 源 : 奥运 官方 网 站 8 月 
17 日 讯 ) 。 

(2) 12 月 17 日 ,北京 航天 飞行 控制 中 心 检测 数据 表明 : 截至 12 月 17 日 
凌晨 3 时 44 分 ,神舟 "六 号 飞船 轨道 舱 已 在 太空 中 正常 运行 60 天 ,环绕 地 
球 飞行 1000 余 圈 ,轨道 舱 平 台 工 况 正常 ,各 项 科学 试验 按 计划 顺利 进行 并 取 
得 了 初步 成 果 ( 中 国 青 年 报 消息 ) 。 

(3) 今 晚 在 北京 大 学 体育 馆 进行 了 乒乓 球 男子 单打 的 决赛 ,最 终 马琳 以 
总 比分 4 : 1 战胜 王 嵌 获得 金牌 。 由 于 之 前 王励勤 在 三 四 名 决赛 中 战胜 瑞典 
老将 佩 尔 森 ,中 国 乒 乓 球 队 在 本 届 奥 运 会 上 包揽 了 乒乓 球 男 单项 目的 三 枚 奖 
牌 ,这 也 是 中 国 代表 团 在 本 届 奥 运 会 上 获得 的 第 49 枚 金牌 (奥运 官方 网 站 8 
月 23 上 日 讯 )。 

针对 上 面 的 三 段 文 本 ,有 如 下 问题 。 
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(1) 三 段 文本 中 哪 两 段 文 本 在 内 容 上 更 接近 ? 


(2) 如 果 前 两 段 文本 各 代表 一 类 文本 .那么 ,你 认为 第 3 段 文 本 应 该 归 为 哪 一 类 ? 

相信 大 多 数 读 者 能 够 给 出 正确 的 答案 : 第 1 段 文本 和 第 3 段 文 本 之 间 的 关系 更 近 , 都 
是 关于 2008 年 北京 第 29 届 奥 运 会 的 报导 ,而 第 2 段 文 字 是 关于 “神舟 ”六 号 飞船 的 报导 。 
如 果 第 1 段 文 本 和 第 2 段 文 本 各 代表 一 类 ,那么 第 3 段 文本 应 该 归 人 第 1 类 。 

上 述 两 个 问题 在 文本 规模 较 小 ,文本 量 较 少 的 情况 下 可 以 让 领域 专家 通过 人 工 的 手段 
完成 。 但 对 大 规模 ,大 数量 的 文本 ,如 文献 库 或 因特网 上 的 网 页 ,这 项 工作 就 很 难 人 工 完 成 ， 
必须 借助 计算 机 的 处 理 手段 完成 。 本 章 将 介绍 如 何 用 数据 挖掘 的 手段 让 计算 机 快速 自动 
地 解决 上 面 提出 的 问题 。 


12.2 文本 挖掘 


文本 挖掘 是 以 计算 语言 学 、 统 计数 理 分 析 为 理论 基础 ,结合 机 器 学 习 和 信息 检索 技术 ， 
从 文本 数据 中 发 现 和 提取 独立 于 用 户 信息 需求 的 文档 集中 的 隐 含 知识 。 它 是 一 个 从 文本 信 
息 描述 到 选取 提取 模式 ,最终 形成 用 户 可 理解 的 信息 知识 的 过 程 。 


1221 文本 信息 检索 概述 


信息 检索 泛 指 用 户 从 包含 各 种 信息 的 文档 集中 查找 所 需要 的 信息 或 知识 的 过 程 ,人 们 
借助 某 种 检索 工具 ,运用 某 种 特定 的 检索 策略 从 待 检索 的 信息 源 中 查找 出 自己 需要 的 信息 。 
在 日 常生 活 中 ,文本 信息 占据 很 大 的 比例 , 它 主 要 以 文字 或 辅 以 图 片 呈 现在 人 们 面前 。 信 息 
检索 是 一 种 不 确定 性 检索 ,用 户 在 检索 信息 时 ,并 不 知道 信息 源 里 是 否 有 符合 需要 的 东西 ， 
有 时 候 检索 出 来 的 信息 并 不 是 我 们 需要 的 信息 ,信息 的 检索 过 程 就 是 信息 源 中 的 信息 和 用 
户 需 求 之 间 相 互 匹配 的 过 程 。 


1. 信息 检索 的 度量 方式 


最 常用 的 衡量 信息 检索 性 能 的 尺度 是 信息 检索 的 查 准 率 和 查 全 率 。 查 准 率 是 检索 到 的 
文档 中 的 相关 文档 占 全 部 检索 到 的 文档 的 百分比 , 它 所 衡量 的 是 检索 系统 的 准确 性 。 查 全 
率 是 被 检索 出 的 文档 中 的 相关 文档 占 全 部 相关 文档 的 百分比 , 它 所 衡量 的 是 检索 系统 的 全 
面 性 。 


2. 基于 模型 的 检索 


在 信息 检索 中 ,信息 获取 方式 的 优 劣 主要 取决 于 信息 模型 的 建立 方法 。 信 息 模 型 建立 
方法 主要 可 以 分 为 三 类 : 布尔 模型 .向 量 模型 和 概率 模型 。 在 布尔 模型 中 ,文档 和 查询 式 都 
表示 为 特征 项 的 集合 ,可 以 通过 运用 集合 运算 来 检索 ; 在 向 量 空间 模型 中 ,文档 和 查询 式 表 
示 为 高 维 空间 中 的 向 量 ,可 以 通过 对 向 量 的 代数 运算 进行 检索 ; 概率 模型 中 ,文档 和 查询 式 
是 通过 概率 理论 形式 化 为 概率 分 布 ,检索 模型 建立 在 概率 运算 的 基础 之 上 。 

检索 模型 包含 如 下 三 个 要 素 。 

(1) 文本 集 。 早 期 文本 信息 检索 基本 局 限于 目录 或 者 摘要 等 二 次 文献 ,它们 的 建立 一 
般 都 采用 传统 的 人 工 赋 词 标 引 方法 。 随 着 大 量 的 各 类 信息 的 出 现 以 及 相关 技术 的 发 展 , 人 
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们 对 全 文 检索 系统 的 需求 越 来 越 大 ,对 检索 的 要 求 也 越 来 越 高 。 全 文 检索 不 同 于 早期 的 检 
索 系 统 , 它 是 将 整个 文本 信息 作为 检索 对 象 ,建立 文本 集 , 利 用 计算 机 抽取 标识 符 , 建 立 索 
引 ,再 用 全 文 检索 技术 实现 检索 。 

(2) 用 户 提问 。 用 户 提交 问题 给 检索 系统 ,系统 将 其 作为 处 理 目标 ,搜寻 文本 集 , 并 判 
断 其 中 哪 一 对 象 与 用 户 的 问题 相 匹配 。 

(3) 文本 与 用 户 提问 相 匹配 。 给 定 文 本 集 与 用 户 提问 的 描述 ,通常 要 判断 该 文本 集 与 
用 户 提问 间 的 匹配 程度 。 匹 配 处 理 的 技术 基础 是 自然 语言 处 理 技术 以 及 能 对 文本 集 和 用 户 
提问 做 出 严格 的 表示 。 

下 面 分 别 介绍 几 种 模型 。 

(1) 布尔 模型 。 在 布尔 模型 中 ,将 用 户 提问 表示 成 布尔 表达 式 ,其 中 每 一 个 用 户 提问 词 
表达 了 用 户 的 一 个 兴趣 ,如 果 该 词 在 文本 中 出 现 ,表明 该 文本 满足 用 户 兴趣 , 则 赋值 为 1; 否 
则 不 满足 ,赋值 为 0。 查 询 式 是 由 用 户 提问 和 操作 符 and、or、not 组 成 的 表达 式 ,如 果 文 本 满 
足 全 部 布尔 表达 式 , 则 说 明 该 文本 与 用 户 提问 相 匹配 ,系统 将 此 文 作 为 结果 输出 给 用 户 。 布 
尔 模型 的 主要 优点 在 于 具有 清楚 和 简单 的 形式 ,而 主要 缺陷 在 于 完全 匹配 会 导致 大 多 或 者 
太 少 的 结果 文档 被 返回 。 

(2) 向 量 空间 模型 。 在 向 量 空间 模型 中 ,有 一 个 特征 表示 集 。 特 征 通常 为 字 或 词 。 用 
户 提问 与 文本 表示 成 高 维 空间 向 量 ,其 中 每 一 维 为 一 个 特征 。 一 个 用 户 提问 的 向 量 或 文本 
向 量 的 第 i 个 元 素 表 示 用 户 提 问 或 文本 的 第 i 个 特征 的 重要 度 , 或 称 权 值 。 用 户 提 问 向 量 
的 权 值 由 用 户 制 定 ; 文本 向 量 的 权 值 则 根据 特征 在 文本 或 文本 集中 的 出 现 频率 而 得 到 。 提 
问 向 量 与 文本 向 量 间 的 余弦 角 通 常用 来 测定 该 文本 与 该 用 户 提 问 词 之 间 的 匹配 程度 。 向 量 
空间 检索 系统 根据 与 用 户 提问 之 间 余 弦 相 似 度 的 大 小 按 序 输 出 文本 结果 。 

(3) 概率 模型 。 在 20 世纪 60 年 代 , Maron 和 Kuhns 提出 了 概率 模型 ,该 模型 在 
INQUERY 系统 环境 中 取得 了 较 好 的 检索 效果 。 富 有 代表 性 的 模型 是 二 值 独立 检索 模型 
(binary independence retrieval,BIR)。BIR 模型 实现 简单 且 检 索 效 果 好 , 它 根据 用 户 的 查 
询 Q, 可 以 将 所 有 文档 d 分 为 两 类 ,一 类 与 查询 相关 (集合 R), 另 一 类 与 查询 不 相关 (集合 
NN, 是 R 的 补 集 ), 两 者 概率 分 别 表示 为 

R 


PCR) = LR C12-1) 


ld 
P(N)= 1— P(R) (12-2) 
索引 项 的 分 布 基 于 以 下 两 条 假设 。 
QO@ 文 档 DD 可 以 表示 为 
d(zX1sT2 °° ,TX.) (12-3) 


其 中 二 元 随机 变量 x; 表示 索引 项 1; 是 否 在 该 文档 中 出 现 , 如 果 出 现 . 则 zx; 二 1; 否则 x; 二 0。 
@ 索引 项 与 索引 项 之 间 相 互 独立 ,任意 一 个 索引 项 的 动作 不 会 影响 到 其 他 索引 项 。 
文档 D 和 查询 Q 的 相关 度 排序 函数 为 

_ Pp(R|ad) 

sim(D,Q) = PERIa) 


利用 Bayse 公式 并 经 简化 ,文档 D 与 查询 Q EO 


2 pl ss 2 
sim(D,Q) = >) T= = (12-5) 


(12-4) 
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其 中 ,d 表示 训练 文档 集中 的 文档 总 数 ,R 表示 训练 文档 集中 与 用 户 查 询 相 关 的 文档 数 , 表 
示 在 训练 文档 集中 包含 特征 项 的 文档 数 , 表 示 R 个 相关 文档 中 包含 特征 项 的 文档 数 。 

概率 模型 的 主要 优点 是 文档 按照 其 相关 概率 大 小 降序 排列 ,其 效率 明显 优 于 布尔 模型 ， 
但 比 向 量 空间 模型 略 差 。 其 主要 缺点 是 需要 初始 时 将 文档 分 为 相关 和 不 相关 的 集合 。 


3. 基于 相似 性 的 检索 


基于 相似 性 的 检索 就 是 根据 一 组 常用 关键 字 发 现 相 似 的 文档 。 在 检索 结果 中 可 以 包含 
相关 程度 的 描述 ,其 中 相关 程度 是 根据 关键 字 的 相似 程度 和 关键 字 的 出 现 次 数 等 来 确定 的 。 

根据 一 个 文档 集合 d 和 一 个 项 集合 :, 可 以 将 每 个 文档 表示 为 在 上: 维 空间 尺 中 的 一 个 文 
档 特征 向 量 v。 向 量 v 中 第 j 个 数值 就 是 相应 文档 中 第 j 个 项 的 度量 。 如 果 文 档 中 不 包含 
这 个 项 , 那 它 就 为 0, 否 则 就 不 为 0。 有 许多 定义 这 种 向 量 中 非 0 权 值 入 口 的 方法 。 例 如 ,车 
第 个 项 在 文档 中 出 现 ,就 简单 地 定义 vw, 二 1, 或 定义 v 为 项 (在 相应 文档 中 ) 出 现 的 频数 ， 
或 相对 项 频数 , 即 项 频数 除 以 所 有 项 在 相应 文档 中 出 现 的 次 数 。 

由 于 相似 文档 应 具有 相似 的 项 频数 ,可 以 根据 在 频数 矩阵 中 的 内 容 来 判断 一 组 文档 间 
或 文档 与 查询 要 求 ( 由 查询 项 组 成 ) 之 间 是 否 相 似 。 一 个 有 代表 性 的 计算 两 个 文档 相似 程度 
的 计算 方法 ,是 余弦 度量 ,其 具体 计算 方法 定义 如 下 。 

设 w 和 ws 分 别 代表 一 个 文档 向 量 , 那 么 两 个 文档 的 相似 程度 (余弦 度量 ?定义 为 


sim(ul ,v2) = (12-6) 


lu ll vw, | 
其 中 ,v,， wv 为 标准 的 向 量 点 乘 , 即 为 


Dy iva (12-7) 
分 母 中 | | 的 计算 方法 为 
[|v |= Vvi* vi (12-8) 


4. 文档 间 相 似 性 计算 举例 


基于 相似 性 的 文档 检索 的 前 提 是 定义 两 篇 文档 之 间 的 相似 性 。 文 档 间 相似 性 的 计算 不 
但 是 文档 相似 性 检索 的 基础 ,而 且 是 文档 聚 类 和 文档 分 类 的 基础 。 这 是 因为 ,由 文档 间 的 相 
似 性 很 容易 定义 文档 间 的 距离 : 文档 的 相似 性 高 ,它们 之 间 的 距离 就 近 ; 文档 的 相似 性 低 ， 
它们 之 间 的 距离 就 远 。 所 以 ,计算 两 篇 文档 的 相似 度 是 重要 的 基础 性 工作 。 

下 面 使 用 式 (12-6) 来 计算 两 篇 文档 之 间 的 相似 度 ,使 用 的 数据 集 是 12. 1 节 中 给 出 的 三 
段 文本 。 

在 计算 文档 相似 度 之 前 ,首先 需要 给 出 一 个 关键 词 (或 主题 词 ) 序 列 。 这 个 序列 是 基本 
固定 的 ,构成 一 部 词典 。 例 如 ,词典 可 以 是 :“ 北 京 大 学 ,体育 馆 , 乒 乓 球 ,团体 ,决赛 ,中 国 
队 , 总 比分 ,奥运 会 .金牌 ,女子 团体 ,雅典 奥运 会 .男子 单打 ,检测 数据 ,神舟 "六 号 ,轨道 舱 , 
太空 ,科学 试验 ,金融 ,银行 ,监管 市场, 经营 ,国际 ,货币 ,人 民 币 ”。 

实际 上 的 关键 词 序列 规模 要 比 上 面 的 序列 规模 大 得 多 。 

下 面 构造 12. 1 节 中 三 段 文本 的 向 量 。 这 里 不 统计 某 个 关键 字 出 现 的 频率 ,只 要 某 个 关 
键 词 出 现 ,其 对 应 位 置 的 分 量 就 是 1 ,否则 就 是 0。 
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对 于 12. 1 节 中 给 出 的 三 段 文 本 ,通过 统计 分 别 得 到 文档 特征 向 量 


mW 一 (1,.1,1,1.1,1,1,1,.1,.1.1.0.0,0,0,0,0.0,0,0.,0,0,0,0,0} 
vz = {0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0} 
vs = {1,1,1,0,1,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0} 
由 上 面 给 出 的 三 个 向 量 , 根 据 式 (12-6) 可 以 得 到 
WW 0 


sim(vi ,v2 ) 


lallvw| VTxv5 
VI * Us 


|wllwl Vixvs 9.38 


sim(vi ,vs ) 


WW" 0 二 0 
lvllv| V5xVv8 

由 上 面 的 计算 可 得 ,12. 1 节 中 的 第 1 段 文本 和 第 3 段 文 本 具有 很 大 的 相似 性 ,应 该 归 
为 同一 类 ,而 第 1 段 文 本 和 第 2 段 文本 之 间 几 乎 没有 相似 性 ,第 2 段 文本 和 第 3 段 文本 之 间 
也 几乎 没有 相似 性 。 上 面 的 计算 会 随 词典 的 变化 而 变化 。 

由 此 ,通过 上 述 量化 计算 可 以 回答 引 例 中 提出 的 两 个 问题 : (1) 第 1 段 文本 和 第 3 段 文 
本 之 间 关 系 很 相近 ,应 该 归 为 同一 类 。(2) 如 果 第 1 段 文本 和 第 2 段 文本 各 代表 一 类 ,那么 
第 3 段 文本 应 该 归 为 第 一 类 。 

上 述 的 计算 和 分 析 过 程 示 例 了 简单 的 文档 聚 类 和 分 类 工作 ,实际 的 文档 聚 类 和 分 类 工 
作 要 复杂 得 多 ,方法 不 只 这 一 种 .需要 考虑 更 多 方面 的 因素 ,但 本 质 上 都 含有 类 似 的 思想 。 


1222 基于 关键 字 的 关联 分 析 


基于 关键 字 的 关联 分 析 就 是 首先 收集 一 起 频繁 出 现 的 项 或 者 关键 字 的 集合 ,然后 发 现 
其 中 所 存在 的 关联 性 。 关 联 分 析 对 文本 数据 库 进行 语法 分 析 、 抽 取 词 根 等 预 处 理 , 生 成 关键 
字 向 量 , 根 据 关 键 字 查 询 向 量 与 文档 向 量 之 间 的 相关 度 比 较 结 果 , 输 出 文本 结果 ,然后 调用 
关联 挖掘 算法 。 与 关系 数据 库 中 关联 规则 的 挖掘 方法 类 似 , 基 于 关键 字 的 关联 规则 产生 包 
括 两 个 阶段 : 关联 挖掘 阶段 ,这 个 阶段 产生 所 有 支持 度 大 于 或 者 等 于 最 小 支持 度 阔 值 的 关 
键 字 集合 , 即 频繁 项 集 。 规 则 生成 阶段 : 利用 前 一 阶段 产生 的 频繁 项 集 构造 满足 最 小 置信 
度 约 束 的 关联 规则 。 根 据 不 同 的 挖掘 需要 ,可 以 利用 关联 挖掘 或 者 最 大 模式 挖掘 算法 来 完 
成 相应 的 文本 分 析 任 务 。 


1223 文档 自动 聚 类 


文本 聚 类 是 根据 文本 数据 的 不 同 特征 ,将 其 划分 为 不 同 数 据 类 的 过 程 。 其 目的 是 要 使 
同一 类 别 的 文本 间 的 距离 尽 可 能 小 ,而 不 同类 别 的 文本 间 的 距离 尽 可 能 大 。 主 要 的 聚 类 方 
法 有 统计 方法 、 机 器 学 习 方法 、 神 经 网 络 方法 和 面向 数据 库 的 方法 。 在 统计 方法 中 , 聚 类 也 
称 聚 类 分 析 ,主要 研究 基于 几何 距离 的 聚 类 。 在 机 器 学 习 中 , 聚 类 称 作 无 监督 学 习 。 聚 类 学 
习 和 分 类 学 习 的 不 同 主要 在 于 : 分 类 学 习 的 训练 文本 或 对 象 具有 类 标号 ,而 用 于 聚 类 的 文 
本 没有 类 标号 ,由 聚 类 学 习 算 法 自动 确定 。 

传统 的 聚 类 方法 在 处 理 高 维和 海量 文本 数据 时 的 效果 不 太 理想 ,原因 如 下 。 

(1) 传统 的 聚 类 方法 对 样本 空间 的 搜索 具有 一 定 的 盲目 性 。 


sim(Cuz ,vs ) 


243 
第 12 章 文本 和 Web 挖 
(2) 在 高 维 很 难 找到 适宜 的 相似 度 度 量 标 准 。 


虽然 文本 聚 类 用 于 海量 文本 数据 时 存在 不 足 , 但 与 文本 分 类 相 比 ,文本 聚 类 可 以 直接 用 
于 不 带 类 标号 的 文本 集 ,避免 了 为 获得 训练 文本 的 类 标号 所 花费 的 代价 。 根 据 聚 类 算法 无 
须 带 有 类 标号 样本 这 一 优势 ,Nigam 等 人 提出 从 带 有 和 不 带 有 类 标号 的 混合 文本 中 学 习 分 
类 模型 的 方法 ,其 思想 是 利用 聚 类 技术 减少 分 类 方法 对 有 标号 训练 样本 的 需求 ,减轻 手工 标 
记 样 本 类 别 所 需 的 工作 量 , 这 种 方法 也 称 为 半 监 督学 习 。 

文本 聚 类 包括 以 下 步骤 。 

(1) 获取 结构 化 的 文本 集 。 结 构 化 的 文本 集 由 一 组 经 过 预 处 理 的 文本 特征 向 量 组 成 。 
从 文本 集中 选取 的 特征 好 坏 直 接 影 响 到 聚 类 的 质量 。 如 果 选 取 的 特征 与 聚 类 目标 无 关 , 那 
么 就 难以 得 到 良好 的 聚 类 结果 。 对 于 聚 类 任务 ,合理 的 特征 选择 策略 应 是 使 同类 文本 在 特 
征 空间 中 相距 较 近 ,异类 文本 相距 较 远 。 

(2) 执行 聚 类 算法 ,获得 聚 类 谱系 图 。 聚 类 算法 的 目的 是 获取 能 够 反映 特征 空间 样本 
点 之 间 的 “抱团 ”性 质 。 

(3) 选取 合适 的 聚 类 阔 值 。 在 得 到 聚 类 谱系 图 后 ,领域 专家 凭借 经 验 , 并 结合 具体 的 应 
用 场合 确定 阔 值 。 阔 值 确定 后 ,就 可 以 直接 从 谱系 图 中 得 到 聚 类 结果 。 


1224 自动 文档 分 类 


自动 文档 分 类 是 一 个 很 重要 的 文本 挖掘 任务 ,是 指 根据 文档 的 内 容 或 者 属性 ,将 大 量 的 
文档 归 到 一 个 或 多 个 类 别 的 过 程 。 自 动 文档 分 类 是 指 利用 计算 机 将 一 篇 文章 自动 地 分 派 到 
一 个 或 多 个 预定 义 的 类 别 中 。 由 于 大 量 文档 的 存在 ,有 必要 对 这 些 文档 进行 自动 文档 分 类 ， 
虽然 这 个 工作 比较 烦琐 ,但 是 能 方便 文档 的 检索 和 之 后 的 分 析 。 文 档 分 类 的 关键 问题 是 获 
得 一 个 分 类 模式 ,利用 此 分 类 模式 也 可 以 对 其 他 文档 进行 分 类 。 

自动 文档 分 类 的 过 程 通常 包括 如 下 两 步 。 

(1) 将 一 组 预先 分 好 类 的 文档 作为 训练 集 , 并 利用 一 定 的 分 类 挖掘 算法 对 训练 集中 的 
对 象 进行 分 析 以 导出 分 类 模式 ,分 类 模式 常用 的 表现 形式 有 分 类 规则 、 判 定 树 或 数学 公式 。 

(2) 利用 获得 的 分 类 模式 对 类 别 未 知 的 文档 进行 分 类 。 可 以 看 出 ,自动 文档 分 类 的 本 
质 是 利用 训练 文本 找 出 某 一 类 文档 中 共有 的 特征 ,从 而 将 出 现 某 些 相同 特征 的 未 知 文档 归 
入 到 相应 的 类 别 下 。 


1225 自动 摘要 


文档 的 自动 摘要 就 是 利用 计算 机 对 文档 进行 处 理 ,从 中 挑选 出 最 能 代表 文档 中 心思 想 
的 句子 或 段落 ,经 过 修饰 重组 形成 一 段 最 能 反映 文档 内 容 的 文字 ; 或 者 通过 对 文档 的 理解 ， 
重新 生成 一 段 能 够 表达 文档 主要 内 容 的 文字 。 

一 般 来 说 ,自动 摘要 系统 都 由 信息 的 理解 主题 信息 的 提取 和 摘要 生成 三 部 分 构成 。 因 
为 这 三 部 分 所 采用 的 方法 不 同 ,摘要 系统 也 可 以 划分 成 不 同 的 类 型 。 若 从 摘要 的 内 容 进 行 
分 类 ,可 分 为 如 下 几 类 。 

(1) 主题 摘要 。 在 摘要 过 程 中 需要 理解 全 文 ,抽取 文章 中 的 主题 (概念 、 句 ) ,组 织 成 文 ， 
构成 摘要 ,作者 原文 摘要 大 致 如 此 。 这 也 是 自动 摘要 系统 的 最 高 境界 。 

(2) 信息 摘要 。 根 据 用 户 特 定 信息 要 求 抽取 有 关 信 息 , 按 用 户 所 喜闻乐见 的 格式 组 织 
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成 有 关 信 息 的 摘要 (有 人 称 其 为 理解 型 摘要 ) 。 

(3) 纲目 摘要 。 在 阅读 并 理解 全 文 的 基础 上 ,识别 文章 的 结构 信息 ,给 出 全 文 目 录 
纲要 。 

(4) 摘录 型 摘要 。 大 部 分 文摘 都 是 直接 或 间接 选 自 原文 ,只 有 少数 句子 经 过 加 工整 理 
而 成 ,手工 文摘 员 的 摘要 大 多 如 此 。 

(5) 评论 型 摘要 。 在 阅读 大 量 同类 文献 的 基础 上 ,文摘 人 员 对 这 些 文献 进行 分 析 比 较 ， 
在 综合 评价 后 形成 文摘 。 这 类 文摘 需要 文摘 人 员 有 较 深 的 专业 知识 ,对 某 一 领域 非常 熟悉 。 

其 中 ,上 述 (1)、(2)、(3) 种 摘要 也 常 被 称 为 报导 型 摘要 。 

文档 使 用 计算 机 自动 生成 文档 摘要 ,生成 的 摘要 是 表明 文档 主题 的 一 个 摘要 内 容 , 它 可 
以 明确 地 表达 出 文章 撰写 的 主要 目的 。 自 动 摘要 生成 的 步骤 如 下 。 

(1) 对 文档 的 预 处 理 。 对 文档 的 章节 、 段 落 和 句子 等 进行 划分 ,主要 以 标点 符号 为 划分 
依据 ,符号 对 于 语法 或 者 语义 的 影响 可 能 比较 大 。 但 是 对 于 文本 预 处 理 而 言 ,符号 就 是 句子 
间隔 ,将 输入 的 原文 本 按照 其 所 属 章节 .段落 和 句子 等 信息 进行 标记 。 

(2) 过 滤 。 去 掉 文 档 中 不 相关 的 句子 。 

(3) 分 词 。 利 用 给 定 的 中 文 词 表 ,对 文档 进行 分 词 ; 对 于 不 能 处 理 的 词 , 作 单字 处 理 ， 
不 必 进 行 词性 的 判断 ; 根据 停 用 词 表 剔 除 无 效 的 实 义 词 。 对 英文 来 说 ,语句 中 的 单词 之 间 
是 通过 空格 自然 分 开 的 ,但 是 中 文 的 文字 是 紧 紧 相 挨 的 ,要 对 中 文 文档 进行 摘要 ,文档 中 的 
词 如 何 切 分 出 来 是 一 个 关键 问题 。 在 分 词 时 可 以 采用 双向 最 大 匹配 法 与 基于 统计 的 方法 相 
结合 。 分 词 步骤 如 下 。 

J@ 根据 中 文 的 语言 规范 和 特点 , 先 制定 一 个 停 用 词 表 , 表 中 存放 那些 明显 不 能 构成 词 
的 单 虚 字 助词 等 。 

@ 分 词 时 首先 (第 一 遍 扫 描 ) 将 文档 中 含有 的 停 用 词 表 中 的 字 、 词 去 掉 ,以 减少 不 必要 
的 资源 浪费 并 且 提 高 分 词 速度 。 

@ 去 除 停 用 词 后 ,文档 将 被 分 成 许多 较 小 的 字符 串 , 针 对 这 些 字符 串 可 采用 双向 最 大 
匹配 法 ,进行 第 二 遍 扫描 。 双 向 最 大 匹配 法 就 是 将 正 向 与 逆向 最 大 匹配 法 结合 起 来 进行 双 
向 扫描 匹配 的 一 种 方法 。 将 字符 串 与 一 个 常用 词 词典 中 的 词 进行 匹配 , 若 在 词典 中 找到 某 
个 字符 串 , 则 匹配 成 功 ,识别 出 一 个 词 。 匹 配 完成 后 ,文档 分 词 基本 完成 。 

@ 由 于 匹配 法 会 遗漏 一 些 生词 ,因此 对 匹配 后 的 短 字符 串 采 用 统计 的 方法 进行 处 理 ， 
识别 一 些 词 典 中 不 含有 的 新 词 。 基 于 统计 的 分 词法 是 将 统计 学 的 知识 应 用 到 语言 处 理 的 一 
种 方法 。 从 形式 上 看 , 词 是 稳定 字 的 组 合 ,因此 在 上 下 文中 , 相 邻 的 字 同 时 出 现 的 次 数 越 多 ， 
就 越 有 可 能 构成 一 个 词 。 因 此 , 字 与 字 相 邻 出 现 的 频率 或 概率 能 够 较 好 地 反映 成 词 的 可 信 
度 。 当 紧密 程度 高 于 某 一 个 国 值 时 , 便 可 认为 此 字 组 可 能 构成 一 个 词 。 因 此 ,对 文档 匹配 后 
的 短 字符 串 进行 统计 分 词 后 ,一 些 生 词 就 可 被 识别 出 来 .大 大 提高 了 分 词 的 准确 性 。 

(4) 统计 分 析 。 通 过 分 析 统 计 句 子 的 词汇 项 信息 ,计算 词 权 ,确定 文档 关键 词 ; 在 分 词 
处 理 后 ,文章 被 切 分 成 一 个 个 的 词 ,统计 出 各 个 词 在 文档 中 的 出 现 次 数 。 词 的 权重 由 词 在 当 
前 文档 的 相对 词 频 决定 ,为 了 定量 地 衡量 词 条 的 重要 性 ,需要 给 文档 中 的 每 个 词 条 赋予 
权 值 。 

(5) 提取 摘要 。 计 算 句 子 的 权 值 , 按 权 值 大 小 对 句子 进行 排序 。 确 定 句子 的 权 值 要 考 
虑 以 下 因素 。 
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@ 句子 中 包含 的 词 条 的 重要 性 , 句 中 词 条 权重 之 和 越 大 , 则 说 明 句 子 的 重要 性 可 能 
越 大 。 

@ 句子 在 文章 中 所 处 的 位 置 ,如 首 句 、 末 句 等 处 的 句子 往往 在 较 大 程度 上 概述 了 文章 
的 内 容 。 

@ 某 些 具 有 特殊 标记 的 句子 ,如 果 句 子 中 包含 了 “ 综 上 所 述 ”“ 总 而 言 之 ”等 概括 性 的 
词 , 则 说 明 该 句子 能 概括 文章 的 意思 ,应 该 加 大 权重 。 

(6) 输出 摘要 。 通 过 前 面 的 统计 、 分 析 、 计 算 之 后 ,确定 摘要 长 度 ,选取 满足 条 件 的 句 
子 , 按 原文 顺序 显示 。 

(7) 对 摘要 的 评估 。 在 自动 摘要 的 研究 中 ,评估 是 一 个 关键 。 摘 要 的 质量 可 以 从 可 理 
解 性 .内 聚 性 .连贯 性 和 易 读 性 这 4 个 方面 来 评估 。 对 自动 摘要 的 结果 进行 自动 评估 是 一 件 
很 难 的 事 , 目 前 还 没有 很 好 的 系统 能 进行 自动 评估 。 目 前 一 般 用 人 工 摘要 结果 与 之 相 比 较 ， 
摘要 评估 要 消耗 不 少 人 力 。 评 价 的 标准 采用 信息 检索 中 的 准确 率 和 召回 率 , 两 者 的 数值 越 
高 越 好 。 假 设 自动 摘要 出 的 句子 集 为 zx, 人 工 摘要 出 的 句子 集 为 y, 准 确 率 (p) 为 

p= (zf y/zr (12-9) 
准确 率 是 自动 摘要 结果 中 属于 应 摘出 的 句子 数目 和 自动 摘出 的 所 有 句子 数目 的 比值 。 

召回 率 (7) 为 

r= (zf y/y (12-10) 
召回 率 是 自动 摘要 结果 中 属于 应 摘出 的 句子 数目 和 应 该 摘出 的 句子 数目 的 比值 。 


12.3 ”Web 挖掘 


Web 挖掘 是 从 海量 的 Web 数据 中 自动 高 效 地 提取 有 用 知识 的 一 种 新 兴 的 数据 处 理 技 
术 。 在 数据 挖掘 的 最 初 阶段 ,人 们 把 注意 力 集中 在 对 存放 在 数据 库 中 的 数据 进行 挖掘 ,从 数 
据 库 中 获取 知识 (knowledge discovery in database. KDD) 的 概念 就 是 在 这 种 情况 下 提出 来 
的 。 近 年 来 ,因特网 的 飞速 发 展 与 广泛 使 用 ,使 得 Web 上 的 信息 量 以 惊人 的 速度 增长 ,为 了 
从 这 些 海量 的 Web 数据 中 获取 对 自己 有 用 的 信息 ,Web 挖掘 技术 应 运 而 生 , 它 是 一 种 能 自 
动 地 从 Web 资源 中 发 现 、 获 取信 息 ,不 至 于 在 数据 的 海洋 中 迷失 方向 的 技术 。 

Web 数据 挖掘 是 用 数据 挖掘 技术 在 Web 文档 和 服务 器 中 自动 发 现 和 提取 感 兴趣 的 、 
有 用 的 模式 和 隐 含 的 信息 。 按 照 控 掘 对 象 的 不 同 , 可 以 将 Web 挖掘 分 为 三 类 : Web 内 容 挖 
掘 (Web content Mining)、Web 结构 挖掘 和 Web 使 用 挖掘 ,如 图 12. 1 所 示 。 


Web 挖 掘 
| 


Web 内 容 挖掘 Web 结 构 挖掘 Web 使 用 挖掘 


| EE ] 
文本 挖掘 多 媒体 挖掘 超 链 接 挖掘 | | 页 面 结构 || 用 户 访问 分 析 定 制 
挖掘 | | 模式 挖 气 | | Web 站 点 


12.1 Web 挖掘 分 类 
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123.1 Web 内 容 挖 掘 


Web 内 容 挖掘 是 对 Web 页 面 内 容 进行 挖掘 ,是 从 大 量 的 Web 数据 中 发 现 信息 、 抽 取 知 
识 的 过 程 。Web 内 容 挖掘 分 为 文本 挖掘 (包括 txt、.HTML 等 格式 ) 和 多 媒体 挖掘 (包括 图 
像 .音频 等 媒体 类 型 ) 。 它 包括 以 下 内 容 。 

(1) 对 搜索 引擎 的 查询 结果 作 进一步 处 理 , 得 到 更 为 精确 和 有 用 的 信息 ,以 增强 搜索 引 
擎 的 内 容 查 询 功能 。 

(2) 数据 库 方法 。 把 半 结 构 化 的 Web 信息 重 构 得 更 结构 化 一 些 , 然 后 就 可 以 使 用 标准 
化 的 数据 库 查 询 机 制 和 挖掘 方法 进行 分 析 。 

(3) 对 HTML 页 面 内 容 进行 挖掘 。 对 页 面 中 的 文本 进行 文本 挖掘 ,对 页 面 中 的 多 媒体 
信息 进行 多 媒体 信息 挖掘 。 包 括 对 页 面 内 容 摘要 、 分 类 、 聚 类 以 及 关联 规则 发 现 。 

Web 文本 挖掘 是 指 对 Web 上 大 量 文 档 集合 的 内 容 进 行 总 结 、 分 类 、 聚 类 和 关联 分 析 
等 。 文 本 总 结 指 的 是 根据 用 户 提出 的 主题 ,从 文档 中 提取 出 关键 信息 ,用 简洁 的 形式 对 文档 
内 容 进行 摘要 或 者 解释 。 文 本 分 类 是 指 根据 预先 定义 的 主题 类 别 , 把 文档 集合 中 的 每 一 个 
文档 分 到 一 个 或 多 个 合适 的 类 别 。 这 不 仅 方 便 了 用 户 浏 览 文档 ,而 且 也 使 得 按照 指定 类 别 
搜索 文档 变 得 容易 。 文 本 聚 类 是 指 把 文档 集合 按照 相似 性 分 成 若干 类 ,使 得 类 间 相 似 性 最 
小 而 类 内 相似 性 最 大 。 文 本 聚 类 与 分 类 的 不 同 之 处 在 于 , 聚 类 没有 预先 定义 好 的 主题 类 别 ， 
它 的 目标 是 将 文档 集合 分 为 若干 个 类 ,要 求 同 一 类 内 文档 内 容 的 相似 度 尽 可 能 地 大 ,而 不 同 
类 间 的 相似 度 尽 可 能 地 小 。 关 联 分 析 是 指 从 Web 文档 中 找 出 不 同 词语 之 间 的 关系 。 

搜索 引擎 是 指 因特网 上 专门 提供 查询 服务 的 一 类 网 站 ,这 些 网 站 通过 网 络 搜 索 软件 (又 
称 为 网 络 搜索 机 器 人 ) 或 网 站 登记 等 方式 ,收集 因特网 上 大 量 网 站 的 页 面 ,经 过 加 工 处 理 后 
建 库 , 从 而 能 够 对 用 户 提 出 的 各 种 查询 作出 响应 ,提供 用 户 所 需 的 信息 。 用 户 的 查询 途径 主 
要 包括 自由 词 ,全 文 检索 、 主 题词 检索 ,分 类 检索 及 其 他 特殊 信息 的 检索 (企业 、 人 名 和 电话 
黄页 等 ) 。 

搜索 引擎 一 般 由 搜索 器 .索引 器 ,检索 器 和 用 户 接 口 4 个 部 分 组 成 。 

(1) 搜索 器 。 其 功能 是 在 因特网 中 漫游 .发 现 和 搜集 信息 , 它 要 尽 可 能 多 、 尽 可 能 快 地 
搜集 新 信息 和 定期 更 新 旧 信 息 , 以 避免 死 连 接 和 无 效 连 接 , 为 此 搜索 器 的 实现 常 采 用 分 布 
式 、 并 行 计算 技术 ,以 提高 信息 发 现 和 更 新 的 速度 。 

(2) 索引 器 。 其 功能 是 理解 搜索 器 所 搜索 的 信息 ,从 中 抽取 出 索引 项 ,用 于 表示 文档 以 
及 生成 文档 库 的 索引 表 。 索 引 器 可 以 使 用 集中 式 索引 算法 或 分 布 式 索 引 算 法 。 

(3) 检索 器 。 其 功能 是 根据 用 户 的 查询 在 索引 库 中 快速 检 出 文档 ,进行 文档 与 查询 的 
相关 度 评 价 , 对 将 要 输出 的 结果 进行 排序 ,并 实现 某 种 用 户 相关 性 反馈 机 制 。 

(4) 用 户 接口 。 其 作用 是 输入 用 户 查询 ,显示 查询 结果 .提供 用 户 相关 性 反馈 机 制 。 分 
为 简单 接口 和 复杂 接口 两 种 。 简 单 接口 只 提供 用 户 输入 查询 串 的 文本 框 , 复 杂 接 口 可 以 让 
用 户 对 查询 进行 限制 。 


1232 ”Web 结构 挖掘 


Web 结构 挖掘 即 挖掘 Web 潜在 的 链接 结构 模式 . 它 是 从 WWW 的 组 织 结构 和 链接 关 
系 中 推导 知识 。 在 Web 空间 里 ,对 人 们 有 用 的 知识 不 仅 包含 在 Web 页 面 内 容 中 ,而 且 也 包 
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含 在 页 面 的 结构 之 中 。Web 结构 挖掘 的 主要 方法 有 Page Rank 和 CLEVER。Web 结构 挖 
气 通 过 分 析 一 个 网 页 链接 和 被 链接 的 网 页 数量 和 对 象 ,建立 Web 自身 的 链接 结构 模式 ,这 
种 模式 可 以 用 于 进行 网 页 分 类 总 结 网 站 和 网 页 的 结构 ,由 此 获得 有 关 不 同 网 页 间 相 似 度 及 
关联 度 的 信息 ,并 由 此 获得 有 关 不 同 页 面 间 相 似 度 和 关联 度 的 信息 。 

Web 结构 挖掘 也 有 助 于 发 现 权 威 的 Web 页 面 ,这 样 可 以 进行 页 面 等 级 的 划分 。 在 搜 
索 某 个 给 定 问题 的 Web 页 面 时 ,我 们 希望 搜索 到 的 页 面 能 够 对 该 问题 具有 权威 性 。 超 链接 
含有 大 量 人 类 潜在 的 注释 ,权威 性 就 隐藏 在 这 些 链 接 中 , 当 一 个 Web 页 面 指向 另 一 个 页 面 
时 ,可 以 看 作 是 该 页 面 的 作者 对 另 一 个 页 面 的 注释 ,页 面 的 重要 性 也 可 以 通过 收集 该 页 面 的 
来 自 不 同 作者 的 注释 来 反映 。 

Web 链接 结构 的 局 限 性 如 下 。 

(1) 不 是 每 个 超 链 接 都 具有 认可 的 性 质 。 有 些 是 为 了 其 他 目的 而 创建 的 ,如 为 了 导航 
或 付费 广告 等 ,这 些 不 具有 认可 性 质 的 超 链接 不 能 用 于 权威 判断 。 

(2) 在 当今 激烈 的 商业 竞争 下 ,很 少 有 Web 页 面 指向 其 竞争 领域 的 权威 页 面 。 

(3) 权威 页 面 很 少 是 描述 性 的 ,例如 ,雅虎 网 页 不 包含 任何 自我 描述 ,如 搜索 引擎 。 

Web 结构 挖掘 的 主要 算法 包括 Page-rank 算法 和 HITS 算法 。 

(1) Page-rank 算法 。Page-rank 算法 是 基于 以 下 假设 的 思想 : 一 个 页 面 被 多 次 引用 ， 
即 很 多 页 面 有 指向 它 的 链接 , 则 这 个 页 面 很 重要 ; 一 个 页 面 尽 管 没 有 被 多 次 引用 ,但 被 一 个 
重要 页 面 引用 , 则 这 个 页 面 也 可 能 很 重要 ; 一 个 页 面 的 重要 性 被 均匀 分 布 并 传递 到 它 所 引 
用 的 页 面 。S. Brin 和 L. Page 提出 了 计算 页 面 权威 性 的 算法 ,计算 公式 如 下 

ROD = ote* DD NE (12-11) 

他 们 认为 c 的 最 佳 值 为 0.85。 其 中 ,B(i) 代 表 指 向 页 面 i 的 页 面 集合 ,N(j) 表 示 页 面 j 
中 指向 其 他 页 面 的 超 链接 数目 .R() 表 示 页 面 i 的 权威 度 。 

Page-rank 算法 的 优点 是 只 要 提前 算 好 了 Page-rank 值 ,检索 时 不 必 重 新 计算 ,这 样 就 
减少 了 在 线 时 间 。 该 算法 的 缺点 是 它 的 检索 具有 全 局 性 ,要 算 一 个 网 页 的 Page-rank 值 就 
要 算出 文档 集 里 所 有 网 页 的 Page-rank 值 ,计算 量 比较 大 。 

(2) HITS 算法 。1999 年 ,Kleinberg 提出 了 HITS(hypertext induced topic search) 算 
法 。 他 认为 页 面 的 重要 性 应 该 建立 在 用 户 查 询 条 件 的 基础 上 ,每 一 页 面 都 分 别 有 Authority 
值 和 Hub 值 。 通常 好 的 Hub 是 指向 许多 好 的 权威 页 面 ,好 的 权威 是 指 由 许多 好 Hub 所 指 
向 的 页 面 。 这 种 Hub 和 Authority 之 间 的 相互 作用 可 用 于 权威 页 面 的 挖掘 及 高 质量 Web 
结构 和 资源 的 自动 发 现 ,这 就 是 HITS 方法 的 基本 思想 。 

HITS 算法 的 内 容 如 下 : 将 查询 g 提交 给 普通 的 基于 相似 度 的 搜索 引擎 ,搜索 引擎 返回 
很 多 页 面 ,从 中 取 前 个 页 面 作为 根 集 (root set) ,用 s 表示 。 通 过 向 s 中 加 入 被 ; 引用 的 页 
面 和 引用 : 的 页 面 将 s 扩展 成 一 个 更 大 的 集合 工 ,作为 基本 集 (base set)。 首 先 为 基本 集中 
的 每 一 个 页 面 赋予 一 个 非 负 的 权威 权重 a。 和 非 负 的 Hub 权重 h, ,并 将 所 有 a 和 的 初始 
值 设置 为 同一 个 常数 。Hub 与 权威 的 权重 可 按照 如 下 公式 进行 迭代 计算 

wir (12-12) 


qsuchthatq=p 


i 《= 


qsuchthatq—p 
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HITS 算法 的 优点 是 : 它 是 局 部 性 的 ,只 涉及 一 小 部 分 页 面 ,一 般 为 几 千 个 页 面 ; 它 的 
权 值 与 检索 主题 相关 ,此 值 是 某 个 网 页 相对 于 某 个 检索 主题 的 权 值 。 该 算法 的 缺点 是 对 某 
些 检索 主题 存在 分 散 和 泛 化 现象 ,检索 这 些 主题 的 效率 和 性 能 很 差 。 


123.3 ”Web 使 用 挖掘 


现在 , 越 来 越 多 的 企业 利用 Internet 进行 商务 活动 ,对 企业 来 说 ,访问 信息 挖掘 是 一 种 
很 重要 的 信息 获取 方式 。 用 户 在 Web 站 点 上 的 商业 活动 和 浏览 访问 信息 都 记录 在 log 文 
件 中 ,Web 日 志 挖掘 就 是 从 服务 器 的 log 文件 或 其 他 数据 中 分 析 用 户 的 访问 模式 。Web 使 
用 挖掘 有 助 于 网 络 信息 的 合理 组 织 和 服务 质量 的 改进 。Web 使 用 挖掘 的 主要 手段 有 关联 
规则 挖掘 、 路 径 分 析 、 聚 类 分 析 和 序列 模式 挖掘 等 。 

(1) 关联 规则 挖掘 。 通 过 关联 分 析 挖 掘 出 隐藏 在 数据 间 的 相互 关系 ,发 现 用 户 浏览 时 
的 相关 页 面 。 最 常用 的 方法 是 Aprior 算法 ,从 事务 数据 库 中 挖掘 出 最 大 频繁 访问 项 集 , 这 
个 项 集 就 是 关联 规则 挖掘 出 来 的 用 户 访问 模式 。 

如 通过 对 Web 站 点 服务 器 的 日 志 进 行 关联 规则 的 挖掘 ,发 现 访问 室内 排球 页 面 的 用 
户 , 其 中 的 45% 也 访问 手球 页 面 。 访问 羽毛 球 和 跳水 页 面 的 用 户 , 其 中 的 59% 也 访问 桌球 
页 面 。 

进行 Web 挖掘 ,利用 在 Web 上 的 关联 规则 的 发 现 ,构建 关联 模型 ,可 以 针对 客户 动态 
调整 站 点 的 结构 ,使 用 户 访问 的 有 关联 的 文件 间 的 连接 能 够 比较 直接 。 减 少 用 户 过 滤 信 息 
的 负担 ,如 果 网 站 具有 这 样 的 便利 性 ,能 给 用 户 留 下 好 的 印象 ,增加 下 次 访问 的 几率 ,也 就 为 
电子 商务 的 开展 提供 了 先 机 。 

(2) 路 径 分 析 。 路 径 分 析 可 用 于 发 现 Web 站 点 中 最 经 常 被 访问 的 路 径 , 从 而 调整 站 点 
的 结构 。 

将 网 站 上 的 页 面 定 义 成 结 点 ,页 面 之 间 的 超级 链接 定义 成 图 中 的 边 , 这 样 就 形成 网 站 结 
构图 ,从 图 中 确定 最 频繁 的 访问 路 径 。 如 一 个 网 站 , 它 包 括 页 面 {A,B,C,D,E,F.G} ,这些 
页 面 之 间 通 过 超 链接 相连 ,其 中 A 为 这 个 网 站 的 主页 。 网 站 的 访问 记录 中 有 大 量 的 不 同 访 
问 者 的 访问 路 径 数据 ,通过 数据 挖掘 发 现 有 许多 用 户 在 连接 主页 A 后 都 会 沿 着 A-B-C-D-E 
的 访问 路 径 访 问 ,网 站 就 应 该 在 主页 A 上 增加 一 个 直接 到 王 页 面 的 链接 ,以 方便 用 户 的 
使 用 。 通 过 路 径 分 析 , 可 以 改进 页 面 及 网 站 结构 的 设计 。 

(3) 聚 类 分 析 。 聚 类 分 析 不 同 于 分 类 ,其 输入 集 是 一 组 未 标记 的 记录 ,也 就 是 此 时 输入 
的 记录 还 没有 进行 任何 分 类 。 聚 类 分 析 是 把 具有 相似 特征 的 用 户 或 数据 项 归 类 ,在 网 站 管 
理 中 通过 聚 类 具有 相似 浏览 行为 的 用 户 ,使 管理 员 更 多 地 了 解 用 户 ,为 用 户 提供 更 满意 .更 
个 性 化 的 服务 。 

例如 ,有 一 些 用 户 经 常 浏览 TOFEL、GRE、application 和 visa 的 信息 ,经 过 分 析 这 些 用 
户 被 聚 类 为 一 组 ,就 可 以 知道 这 是 一 组 expecting overseas student 用 户 。 这 样 ,Web 可 有 自 
动 给 这 个 特点 的 用 户 聚 类 群发 送 新 信息 邮件 .及 时 调整 页 面 及 页 面 内 容 , 使 网 站 管理 活动 能 
够 在 一 定 程度 上 满足 用 户 的 需求 .使 此 Web 站 点 活动 更 有 意义 和 价值 。 

(4) 序列 模式 挖掘 。 序 列 模式 是 指 在 时 序数 据 集中 发 现在 时 间 上 具有 先后 顺序 的 数据 
项 。 它 与 关联 挖掘 都 是 从 用 户 访 问 的 日 志 中 寻找 用 户 普遍 访问 的 规律 ,关联 挖掘 更 注重 事 
务 内 的 关系 ,序列 模式 挖掘 则 注意 事务 间 的 关系 。 在 Web 日 志 挖掘 中 ,序列 模式 识别 是 指 
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寻找 用 户 会 话 中 在 时 间 上 有 先后 关系 的 页 面 请 求 。 


如 在 线 定购 计算 机 的 用 户 ,.60% 的 人 会 在 3 个 月 内 定购 打印 机 。 发 现 序列 模式 能 够 便 
于 电子 商务 的 决策 者 预测 客户 的 访问 模式 ,对 客户 提供 个 性 化 服务 。 网 站 管理 员 可 利用 发 
现 的 序列 模式 预测 用 户 即将 可 能 请 求 的 页 面 ,这 样 就 可 以 针对 特定 用 户 在 页 面 中 放置 不 同 
的 广告 来 增加 广告 点 击 率 。 

Web 日 志 挖 掘 可 分 为 三 个 阶段 : 数据 预 处 理 、 数 据 挖掘 和 对 挖掘 出 的 模式 进行 分 析 。 
数据 预 处 理 将 原始 的 日 志文 件 经 过 一 系列 的 数据 处 理 转 化 成 事务 数据 库 , 以 供 数据 挖掘 阶 
段 使 用 。 主 要 包括 数据 清洗 和 事务 识别 两 个 部 分 .数据 清洗 主要 是 对 无 关 记 录 的 删除 、 判 断 
是 否 有 重要 的 访问 没有 被 记录 、 用 户 的 识别 等 。 事务 识别 是 将 页 面 访问 序列 划分 为 代表 
Web 事务 或 用 户 会 话 的 逻辑 单元 。 数 据 挖掘 阶段 对 数据 预 处 理 所 形 成 的 事务 数据 库 , 利 用 
数据 挖掘 的 一 些 有 效 算法 来 发 现 隐藏 的 模式 ,规则 。 然 后 主要 是 对 挖掘 出 来 的 模式 .规则 进 
行 分 析 , 找 出 用 户 感 兴趣 的 模式 。 


12.4 小 结 


有 相当 多 的 信息 是 以 文本 或 者 文档 形式 存放 在 数据 库 中 的 ,这 些 数据 库存 储 了 大 量 的 
文档 数据 。 文 本 数据 挖掘 也 变 得 越 来 越 重要 。 文 本 挖掘 比 基 于 关键 字 检索 和 基于 相似 性 搜 
索 又 进一步 , 它 是 从 半 结 构 化 的 数据 中 发 现 有 意义 的 知识 。 文 本 挖掘 主要 有 基于 关键 字 的 
关联 分 析 ,文档 分 类 和 文档 自动 摘要 等 。 

因特网 已 经 成 为 一 个 巨大 的 分 布 式 全 球 信息 服务 中 心 ' 它 不 仅 包含 了 大 量 的 文档 ,而且 
还 包含 了 丰富 的 动态 超 链接 信息 、 存 取 和 使 用 信息 等 。 如 此 巨大 的 信息 资源 为 数据 挖掘 提 
供 了 广阔 的 应 用 空间 和 基础 。Web 挖掘 主要 分 为 三 类 : Web 内 容 挖掘 Web 结构 挖掘 和 
Web 使 用 挖掘 。 这 里 所 介绍 的 Web 挖掘 内 容 主要 有 对 文本 挖掘 和 多 媒体 挖掘 .搜索 引擎 
技术 的 简要 介绍 ,挖掘 Web 链接 结构 以 及 Web 结构 挖掘 算法 和 Web 使 用 模式 挖掘 等 。 


12.5 习题 


1. 请 简 述 Web 挖掘 的 三 个 主要 类 别 。 

2. 对 12.2.1 节 给 出 的 例子 ,请 重新 计算 三 个 文档 两 两 之 间 的 距离 。 但 文档 向 量 中 的 
分 量 不 是 0/1 的 ,而 是 关键 词 在 文档 中 出 现 的 频率 。 

3. 请 解释 衡量 信息 检索 性 能 的 尺度 的 两 个 概念 : 查 准 率 和 查 全 率 。 

4. 汉语 文本 挖掘 的 一 项 基础 性 工作 是 分 词 .请 简 述 分 词 操作 的 基本 步骤 。 

5. 简 述 Web 使 用 挖掘 的 路 径 分 析 手 段 的 工作 原理 ,举例 说 明 它 的 分 析 结 果 怎 样 帮助 
优化 站 点 的 结构 。 
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